YOLOv1 网络结构
448×448 → 卷积主干 → 检测头 → 7×7×30
卷积主干 · 24 个卷积层(基于 GoogLeNet)
检测头 · 2 个全连接层
输入图像
448 × 448 × 3
192
256
512
1024
1×1 降维 + 3×3 提特征 交替,空间↓ 通道↑
FC 4096
7 × 7 × 30
49 个网格
每个网格 = 30 维
x y w h
conf
框 1 · 5 维
x y w h
conf
框 2 · 5 维
20 个类别(VOC)
30 = 2 × 5 + 20 通用:输出深度 = B × 5 + C
▶ 重播