ResNet 残差网络与残差块
x⁽³⁾ = ReLU( F(x) + x ) 恒等捷径让梯度无衰减回传
退化问题:越深 ≠ 越好
训练误差 →
训练迭代 →
56层
20层
连训练误差都更高 → 不是过拟合,是退化
残差块(Residual Block)
x
输入
weight
卷积
relu
weight
卷积
F(x) 残差
+
identity 捷径 shortcut(直传 x)
relu
x⁽³⁾ = ReLU(
F(x)
+
x
)
网络只需学残差 F(x),恒等映射由捷径直传 → 梯度可无衰减回传到浅层
▶ 重播