我们非常重视您的个人隐私,当您访问我们的网站时,请同意使用的所有cookie。有关个人数据处理的更多信息可访问 《隐私与保护政策》

让无人机“慧眼识物”:RetinaNet如何攻克航空图像目标检测难题?

2026.05.11






你是否好奇,计算机是如何从一张高分辨率的卫星或航拍图像中,精准识别出几十个甚至上百个不同目标的?这些目标有的呈任意方向,有的尺寸差异极大,背景更是复杂多变。面对这样的挑战,一个名为RetinaNet的深度学习模型交出了亮眼的答卷——它让One-stage检测器超越了传统Two-stage方法的精度,成为了航空图像分析领域的重要工具。







DOTA数据集



航空图像与普通图像不同:

  • 目标方向任意(不再是“正”着的汽车)

  • 目标尺寸变化极大(从大型桥梁到小型车辆)

  • 背景复杂(机场、港口、居民区混杂)



DOTA数据集Dataset for Object deTection in Aerial images)正是为此而生。它包含2806张高分辨率图像,累计标注了超过18万个目标,涵盖飞机、船舶、车辆、港口、桥梁等18个类别。


值得注意的是,DOTA的标注方式非常特殊——用四个点的坐标表示一个旋转框,而不是普通的水平矩形框。这是因为航空图像中的目标往往朝向任意方向,只有旋转框才能精确贴合。


每一行标注包含10个数值,前8个是旋转矩形四个角的坐标,第9个是类别,第10个表示识别难易程度。标注格式为:

(x1, y1, x2, y2, x3, y3, x4, y4, category, 0/1)*0代表容易被检测,1代表不容易被检测


为了让模型更鲁棒,研究者们还对图像进行了数据增强,包括亮度调整、加噪声、旋转、镜像、平移、裁剪等。这些操作不仅增加了数据多样性,也让模型更好地适应真实场景。


RetinaNet:

One-stage首次超越Two-stage



在RetinaNet出现之前,目标检测领域有两个阵营:

  • Two-stage(如Faster R-CNN):

    精度高,但速度慢

  • One-stage(如SSD):

    速度快,但精度往往不如前者



RetinaNet的突破在于:它让One-stage在精度上超越了Two-stage方法


核心秘诀就是Focal Loss(焦点损失)。


在结构上,RetinaNet 没有沿用特征金字塔网络(FPN)的完整路径,而是直接从 C3 层开始生成 P3 特征层,跳过了计算量较大的 C2;P6 也不是简单的最大池化,而是通过卷积下采样得到,特征层级更是一直延伸到 P7,覆盖了从几十像素到八百多像素的广阔目标尺度。


在 P3 到 P7 的每一层,RetinaNet 都为每个位置预先设置了 9 个锚框——3 种尺度搭配 3 种长宽比,确保无论目标是大是小、是方是长,都能被“框”住。


*图片来自于文章“光计算在RetinaNet目标检测任务中的应用”


在预测器的设计上,RetinaNet 采用了一种极其简洁却高效的思路:用两个并行的全卷积分支,一个负责分类,一个负责回归,而且所有特征层共享同一套卷积权重。分类分支输出“类别数 × 锚框数”的通道,回归分支则输出“4 × 锚框数”的偏移量参数,这种结构既保持了计算的高效性,又让预测结果与每个锚框一一对应。


*图片来自于文章“光计算在RetinaNet目标检测任务中的应用”


而在样本匹配策略上,RetinaNet 同样干净利落——只要锚框与真实框的交并比(IoU)大于 0.5 就视为正样本,小于 0.4 则为负样本,介于中间的则直接忽略。正是这样一套“结构+预测+匹配”的组合,为后续 Focal Loss 的发挥打下了坚实的基础。


*图片来自于文章“光计算在RetinaNet目标检测任务中的应用”



Focal Loss:从“淹没”到“聚焦”


RetinaNet真正的灵魂,是Focal Loss(焦点损失)。


问题:负样本泛滥


在单阶段检测器中,锚框数量巨大(例如几十万个),但正样本往往只有几十个。即使采用正负样本1:3的采样策略,训练过程仍然被大量容易区分的负样本主导。


解决方案:动态缩放


传统的交叉熵损失(CE)对所有样本一视同仁。Focal Loss引入了一个调制因子

  • 当样本容易区分(Pt 接近1)时,(1-Pt)y 接近0,损失被大幅压低。


  • 当样本难以区分(Pt较小)时,调制因子接近1,损失基本保留。

配合平衡因t    Focal Loss同时解决了正负样本不平衡难易样本不平衡两大问题。



模型量化:让RetinaNet“轻装上阵”


当模型训练完成,下一步就是部署。在光计算等硬件平台上,模型需要从浮点精度转换为定点精度,这个过程称为模型量化


工具:MOCA


MOCA是一套基于MQBench的量化工具,支持8/4/3/2bit的定点量化,并能够导出适用于光计算硬件的ONNX模型。


QAT训练:低比特训练


QAT(量化感知训练)通过在训练过程中模拟量化误差,让模型提前适应低比特表示。在RetinaNet的QAT训练中,研究者对比了不同输入尺寸和光计算模拟器的效果:


  • 1024×1024输入:mAP较高,但计算量更大

  • 512×512输入:速度更快,精度略有下降


最终在光计算模拟器上的测试结果证明,量化后的RetinaNet仍能保持较高的检测精度,同时大幅提升推理效率。


如果你对技术细节感兴趣,欢迎阅读原文。


参考文献

[1] 曦智科技. 光计算在RetinaNet目标检测任务中的应用[EB/OL]. 2026-04-02. https://www.xztech.ai/community/cases/1.