网络训练三步:前向算预测 · 反向传梯度 · 梯度下降更新
输入层 x
隐层
输出 ŷ
真实标签 y
y
误差
ŷ − y
① forward 前向:加权求和 + 偏置 → 激活 σ,逐层算到预测
② backward 反向:链式法则把误差逐层回传,算出每个 ∂L/∂w
③ 梯度下降更新
w
new
= w
old
− α · ∂L/∂w
α 学习率=步子大小:
太大容易跨过头,太小走得慢
用②算出的梯度,按①的预测误差更新参数
梯度下降=怎么更新(策略) 反向传播=梯度怎么算(手段)——分工合作,别混为一谈
▶ 重播