YOLOv1 网络结构 448×448 → 卷积主干 → 检测头 → 7×7×30
卷积主干 · 24 个卷积层(基于 GoogLeNet) 检测头 · 2 个全连接层 输入图像 448 × 448 × 3 192 256 512 1024 1×1 降维 + 3×3 提特征 交替,空间↓ 通道↑ FC 4096 7 × 7 × 30 49 个网格 每个网格 = 30 维 x y w h conf 框 1 · 5 维 x y w h conf 框 2 · 5 维 20 个类别(VOC) 30 = 2 × 5 + 20  通用:输出深度 = B × 5 + C