ResNet 残差网络与残差块 x⁽³⁾ = ReLU( F(x) + x ) 恒等捷径让梯度无衰减回传
退化问题:越深 ≠ 越好 训练误差 → 训练迭代 → 56层 20层 连训练误差都更高 → 不是过拟合,是退化 残差块(Residual Block) x 输入 weight 卷积 relu weight 卷积 F(x) 残差 + identity 捷径 shortcut(直传 x) relu x⁽³⁾ = ReLU( F(x) + x ) 网络只需学残差 F(x),恒等映射由捷径直传 → 梯度可无衰减回传到浅层