梯度下降与学习率 小球沿负梯度方向一步步滚向谷底 w ← w − α · ∂L/∂w
损失 L 参数 w 沿负梯度方向 谷底 = 损失最小 学习率合适 → 平滑收敛 学习率太大 → 两壁间振荡 wnew = wold α · ∂L/∂w