目标检测两条技术路线 · 两阶段 vs 一阶段 两阶段 · R-CNN 精度高 · 但慢(每框跑一遍网络) Stage1:~2000 候选框 Stage2:逐框分类+回归 car .98 person .95 耗时:很多次前向 一阶段 · YOLO 只跑一次网络 · 极快可实时 输入 + 网格 一次 CNN 前向 每个负责格输出预测向量 1 4 n 可能性 位置 x y w h n 个类别 1 + 4 + n car .98 person 一步到位 两者都有 分类损失 + 回归损失 差别不在「有没有回归」,而在 是否显式生成候选框 以及 分类/回归发生在哪个阶段