随着深度卷积神经网络的兴起,通用目标检测在过去几年取得了显著的进展,然而通用目标检测的繁荣并不能掩盖小目标检测领域不尽如人意的现状。制约小目标检测领域发展的一个重要原因是缺乏针对小目标检测量身定制的大规模数据集。在2022年7月Gong Cheng等人发布了关于驾驶和航空场景的两个大规模小目标检测数据集:SODA-D和SODA-A,旨在促进小目标检测领域的发展。
目标检测任务旨在找出图片或视频中感兴趣的目标,同时判断其所属类别并用矩形框标注出具体位置,如图1所示。小目标检测是通用目标检测的一个子方向,其主要关注那些相对原始图像占比非常小的图片。
图1 目标检测任务
图2 小目标检测任务
在此之前的一些数据集,如VOC和Imagenet数据集,由于目标出现的位置和大小过于理想化不符合现实世界的自然场景,从而导致其实用性受到质疑。为了进一步提升目标检测算法对图像的理解能力,COCO数据集于2014年正式发布,并在接下来的几年中一直保持更新和优化。该数据集的训练和验证集中包含12万多张图片,88万多个实例,涵盖了我们日常生活中常见的80种物体。由于COCO数据集中仅有30%的目标像素面积小于1024个像素,所以该数据集更多是用于通用目标检测。
图3 COCO数据集官网
WiderFace数据集是一个针对人脸检测的大规模小目标检测数据集,其中包含着small, medium和large三种尺度的人脸目标,并且这些目标有着不同的姿势、亮度、遮挡物等真实场景下的影响因素。该数据集有32203张图像,一共标注了393703个实例,是一个针对单分类目标检测任务设计的数据集。
图4 WiderFace中丰富的人脸目标示例
TinyPerson专注于海边行人检测,该数据集标注了1610张图片,共72561实例,根据他们的尺度,这些图片被分为tiny和small两个子集。虽然TinyPerson作为第一个专门用于微型行人检测的数据集,对于微型目标检测领域来说具有不错的研究价值,但是其实例数量有限,模式单一,限制了其作为小目标检测领域基准数据集的可能性。
图5 沙滩上的TinyPerson
TT100K是一个真实场景下的交通标志检测数据集,包含100000张图片中共30000个交通标志实例,涵盖了45个常用的中国交通标志类。该数据集是清华大学和腾讯合作在腾讯地图收集的街景数据中采集而来,每一张图像都是2048*2048的尺寸,其中80%的实例所占比例不到原图尺寸的0.1%,然而该数据集的类别不平衡问题非常严重,因为很多交通标志比如“山体滑坡”在真实世界中所占比例相对于“禁止停车”之类的标志是非常少见的。
图6 自然场景下的交通标志检测
DOTA数据集包含18个常见类别和11268张遥感图像中共1793658个实例。每个实例都标注了水平/旋转的bounding box,所以该数据集也可以用于旋转目标检测。由于俯视的遥感图像的高度多样性和实例之间的大规模变化,DOTA数据集虽然有大量的小对象,但是它们只分布在少数类别中。
图7 DOTA数据集的一些样例
SODA-D包含24704张高质量交通图像和9类277596个实例。对于SODA-A,其中收集了2510个高分辨率的航空图像,并在9个类中注释了800203个实例。
图8 左栏为SODA-D,右栏为SODA-A
该SODA-D数据集继承了MVD(Mapillary Vistas Dataset)最卓越的优点之一:在地点、天气、时期、拍摄视角和场景方面具有丰富多样性,如图9所示。此外,SODA-D的图像具有非常高的分辨率和高质量,这非常适合小目标检测任务。值得注意的是,该数据集也设置了Ignore Regions来更好地检验一个模型的效果。
图9 SODA-D数据集样例展示
SODA-A数据集中的图像来自全球数百个城市,具有丰富的数据多样性。该数据集中的图像实例个数从1到11134不等,平均每张图像包含318个实例,这意味着该数据集不仅包含稀疏的情况,还包括许多物体位置非常接近的图像,因此该数据集需要一个能够处理过度聚集情况的模型。另外,SODA-A中的实例可以以任意旋转的方式出现,标注实例的倾斜角度分布在[−π/2, π/2]之间。
图10 SODA-A数据集样例展示
数据集是基于学习的目标检测方法的基石,尤其是数据驱动的深度学习方法。在过去的几十年里,各个研究机构推出了大量高质量的数据集,这些公开的数据集为检验模型效果提供了一个基准测试平台,极大地促进了相关领域的发展。然而很少有基准数据集是为小目标检测任务设计的,SODA-D和SODA-A数据集这两个高质量大规模数据集的提出想必会给小目标检测领域带来深远的影响。