让无人机“慧眼识物”：RetinaNet如何攻克航空图像目标检测难题？

2026.05.11

你是否好奇，计算机是如何从一张高分辨率的卫星或航拍图像中，精准识别出几十个甚至上百个不同目标的？这些目标有的呈任意方向，有的尺寸差异极大，背景更是复杂多变。面对这样的挑战，一个名为RetinaNet的深度学习模型交出了亮眼的答卷——它让One-stage检测器超越了传统Two-stage方法的精度，成为了航空图像分析领域的重要工具。

DOTA数据集

航空图像与普通图像不同：

目标方向任意（不再是“正”着的汽车）
目标尺寸变化极大（从大型桥梁到小型车辆）
背景复杂（机场、港口、居民区混杂）

DOTA数据集（Dataset for Object deTection in Aerial images）正是为此而生。它包含2806张高分辨率图像，累计标注了超过18万个目标，涵盖飞机、船舶、车辆、港口、桥梁等18个类别。

值得注意的是，DOTA的标注方式非常特殊——用四个点的坐标表示一个旋转框，而不是普通的水平矩形框。这是因为航空图像中的目标往往朝向任意方向，只有旋转框才能精确贴合。

每一行标注包含10个数值，前8个是旋转矩形四个角的坐标，第9个是类别，第10个表示识别难易程度。标注格式为：

（x1, y1, x2, y2, x3, y3, x4, y4, category, 0/1）*0代表容易被检测，1代表不容易被检测

为了让模型更鲁棒，研究者们还对图像进行了数据增强，包括亮度调整、加噪声、旋转、镜像、平移、裁剪等。这些操作不仅增加了数据多样性，也让模型更好地适应真实场景。

RetinaNet：

One-stage首次超越Two-stage

在RetinaNet出现之前，目标检测领域有两个阵营：

Two-stage（如Faster R-CNN）：
精度高，但速度慢
One-stage（如SSD）：
速度快，但精度往往不如前者

RetinaNet的突破在于：它让One-stage在精度上超越了Two-stage方法。

核心秘诀就是Focal Loss（焦点损失）。

在结构上，RetinaNet 没有沿用特征金字塔网络（FPN）的完整路径，而是直接从 C3 层开始生成 P3 特征层，跳过了计算量较大的 C2；P6 也不是简单的最大池化，而是通过卷积下采样得到，特征层级更是一直延伸到 P7，覆盖了从几十像素到八百多像素的广阔目标尺度。

在 P3 到 P7 的每一层，RetinaNet 都为每个位置预先设置了 9 个锚框——3 种尺度搭配 3 种长宽比，确保无论目标是大是小、是方是长，都能被“框”住。

*图片来自于文章“光计算在RetinaNet目标检测任务中的应用”

在预测器的设计上，RetinaNet 采用了一种极其简洁却高效的思路：用两个并行的全卷积分支，一个负责分类，一个负责回归，而且所有特征层共享同一套卷积权重。分类分支输出“类别数 × 锚框数”的通道，回归分支则输出“4 × 锚框数”的偏移量参数，这种结构既保持了计算的高效性，又让预测结果与每个锚框一一对应。

*图片来自于文章“光计算在RetinaNet目标检测任务中的应用”

而在样本匹配策略上，RetinaNet 同样干净利落——只要锚框与真实框的交并比（IoU）大于 0.5 就视为正样本，小于 0.4 则为负样本，介于中间的则直接忽略。正是这样一套“结构+预测+匹配”的组合，为后续 Focal Loss 的发挥打下了坚实的基础。

*图片来自于文章“光计算在RetinaNet目标检测任务中的应用”

Focal Loss：从“淹没”到“聚焦”

RetinaNet真正的灵魂，是Focal Loss（焦点损失）。

问题：负样本泛滥

在单阶段检测器中，锚框数量巨大（例如几十万个），但正样本往往只有几十个。即使采用正负样本1:3的采样策略，训练过程仍然被大量容易区分的负样本主导。

解决方案：动态缩放

传统的交叉熵损失（CE）对所有样本一视同仁。Focal Loss引入了一个调制因子：

当样本容易区分（P_t 接近1）时，(1-P_t)^y 接近0，损失被大幅压低。
当样本难以区分（P_t较小）时，调制因子接近1，损失基本保留。

配合平衡因子⍺_t，Focal Loss同时解决了正负样本不平衡和难易样本不平衡两大问题。

模型量化：让RetinaNet“轻装上阵”

当模型训练完成，下一步就是部署。在光计算等硬件平台上，模型需要从浮点精度转换为定点精度，这个过程称为模型量化。

工具：MOCA

MOCA是一套基于MQBench的量化工具，支持8/4/3/2bit的定点量化，并能够导出适用于光计算硬件的ONNX模型。

QAT训练：低比特训练

QAT（量化感知训练）通过在训练过程中模拟量化误差，让模型提前适应低比特表示。在RetinaNet的QAT训练中，研究者对比了不同输入尺寸和光计算模拟器的效果：

1024×1024输入：mAP较高，但计算量更大
512×512输入：速度更快，精度略有下降

最终在光计算模拟器上的测试结果证明，量化后的RetinaNet仍能保持较高的检测精度，同时大幅提升推理效率。

如果你对技术细节感兴趣，欢迎阅读原文。

参考文献

[1] 曦智科技. 光计算在RetinaNet目标检测任务中的应用[EB/OL]. 2026-04-02. https://www.xztech.ai/community/cases/1.

返回列表