检测模型改进—OHEM与Focal-Loss算法总结

编程小6 (1) 2024-04-20 17:12

Hi，大家好，我是编程小6，很荣幸遇见你，我把这些年在开发过程中遇到的问题或想法写出来，今天说一说检测模型改进—OHEM与Focal-Loss算法总结,希望能够帮助你!!!。

1. 概述

论文名称：Training Region-based Object Detectors with Online Hard Example Mining
代码地址：OHEM
OHEM（online hard example miniing）算法的核心思想是： 根据输入样本的损失进行筛选，筛选出hard example，表示对分类和检测影响较大的样本，然后将筛选得到的这些样本应用在随机梯度下降中训练。

在实际操作中是将原来的一个ROI Network扩充为两个ROI Network，这两个ROI Network共享参数。其中前面一个ROI Network只有前向操作，主要用于计算损失；后面一个ROI Network包括前向和后向操作，以hard example作为输入，计算损失并回传梯度。

作者将该算法应用在Fast RCNN中，网络结构还是采用VGG16和VGG_CNN_M_1024，数据集主要采用VOC2007，VOC2012和COCO数据集。算法优点：
1）对于数据的类别不平衡问题不需要采用设置正负样本比例的方式来解决，这种在线选择方式针对性更强；
2）随着数据集的增大，算法的提升更加明显（作者是通过在COCO数据集上做实验和VOC数据集做对比，因为前者的数据集更大，而且提升更明显，所以有这个结论）；

算法的测试结果：在pascal VOC2007上的mAP为78.9%，在pascal VOC2012上的mAP为76.3%。注意，这些结果的得到包含了一些小tricks，比如multi-scale test（测试时候采用多尺度输入），bounding box的不断迭代回归。

需要注意的是，这个OHEM适合于batch size（images）较少，但每张image的examples很多的情况。

论文提及到可以用一种简单的方式来完成hard mining：在原有的Fast-RCNN里的loss layer里面对所有的props计算其loss，根据loss对其进行排序，（这里可以选用NMS），选出 $K$ 个hard examples（即props）。反向传播时，只对这 $K$ 个props的梯度/残差回传，而其他的props的梯度/残差设为 $0$ 即可。由于这样做，容易导致显存显著增加，迭代时间增加，这对显卡容量少的童鞋来说，简直是噩梦。

前面说到OHEM是在线的，为什么说是online？
论文的任务是region-based object detection，其examples是对props来说的，即使每次迭代的图像数为1，它的props还是会很多，即使hard mining后。

为什么要hard mining：
1）减少fg和bg的ratio，而且不需要人为设计这个ratio；
2）加速收敛，减少显存需要这些硬件的条件依赖；
3）hard mining已经证实了是一种booststrapping的方式，尤其当数据集较大而且较难的时候；
4）eliminates several heuristics and hyperparameters in common use by automatically selecting hard examples, thus simplifying training。放宽了定义negative example的bg_lo threshold，即从[0.1, 0.5)变化到[0, 0.5)。取消了正负样本在mini-batch里的ratio（原Fast-RCNN的ratio为1:3）。

2. OHEM算法

如前所述，OHEM算法的核心是选择一些hard example作为训练的样本，那么什么样的样本是hard example呢？答案是：有多样性和高损失的样本。

实际训练的时候，每个mini-batch包含 $N$ 个图像，共 $∣ R ∣$ 个ROI，也就是每张图像包含 $∣ R ∣ / N$ 个ROI。经过hard ROI sampler筛选后得到 $B$ 个hard example。作者在文中采用 $N = 2 ， ∣ R ∣ = 4000 ， B = 128$ 。
另外关于正负样本的选择：当一个ROI和一个ground truth的IOU大于0.5，则为正样本；当一个ROI和所有ground truth的IOU的最大值小于0.5时为负样本。