网络训练三步:前向算预测 · 反向传梯度 · 梯度下降更新 输入层 x 隐层 输出 ŷ 真实标签 y y 误差 ŷ − y ① forward 前向:加权求和 + 偏置 → 激活 σ,逐层算到预测 ② backward 反向:链式法则把误差逐层回传,算出每个 ∂L/∂w ③ 梯度下降更新 wnew = wold − α · ∂L/∂w α 学习率=步子大小: 太大容易跨过头,太小走得慢 用②算出的梯度,按①的预测误差更新参数 梯度下降=怎么更新(策略) 反向传播=梯度怎么算(手段)——分工合作,别混为一谈