计算机视觉任务及常用数据集
图1 计算机视觉任务
一、图像分类(Image classification)
为图像赋予一个或多个语义标签,见上图1-a。
1、常用数据集
| 类别 | 训练数据 | 测试数据 | 图片格式 | |
|---|---|---|---|---|
| Mnist(分辨率28*28) | 10 | 50000 | 10000 | Gray |
| Cifar-10(分辨率32*32) | 10 | 50000 | 10000 | RGB |
| ILSVRC(分辨率几百*几百) | 1000 | 1200000 | 150000 | GGB |
2、ILSVRC
大规模图像识别挑战赛,覆盖图像分类、定位、检测、视频目标检测等。top-1 error和top-5 error(预测前5个类型,如果含有groundtruth类别,不做惩罚)。

3、ImageNet与ILSVRC
ImageNet数据集包含21841个类别,14197122张图片;从中挑选1000类的120000张作为训练集。
二、图像检测(Object location)
找到图像的分类及所在的位置,见上图1-b。
问题难点:物体尺寸变化大,位置、角度、姿态不定,另外物体还有多个类别。
1、PASCAL VOC(The PASCAL Visual Object Classification)
目标检测、分割领域有名的数据集,被看成目标检测问题胡基准数据库。2005-2012年,共举办8个不同的挑战赛。含20个类型。
VOC2007含9963张图片,共24640个物体。VOC2012含11540张图片,共27450个物体。
2、MS COCO(Microsoft Common Objects in Context通用物体检测)
目标检测、分割、位置、标签的数据集。COCO数据集共有12个大类,80个小类。
COCO2014,训练集82783张图片,验证集40504张图片,共计123287张图片。
COCO2017,训练集118287张图片,验证集5000张图片,共计123287张图片。
3、object365
旷视科技发布通用物体检测数据集,含63万张图片,覆盖365个类别,边界框高达1000万个。图片数量是COCO的5倍,标注框超过COCO11倍。
密集标注,注重目标间关系,如下图2,左脚和右脚分别标注。

图2 Object365标注
三、图像语义分割(Segmantic segmentation)
确定物体分类,并精确勾勒物体位置。见上图1-c。
1、Cityscapes
城市道路与交通语义分割数据集,8个大类,30个种类胡像素级别标注。含5000张精准标注图像,20000张标注图像,来自50多个城市。

图3 CityScapes标注
四、图像实例分割(Instance segmentation)
多个同类物体存在,一一区分出来。见上图1-d。
五、图像标题生成(Image Caption)
为图像生成一句话的描述文字,见图4。

图4 图像标题生成
要为图片生成标题,首先要理解图片的主要内容,在图片内容和语言文字间建立语义关联。主要方法基于encoder-decoder模型,其中encoder一般为卷积神经网络,利用最后全连接层或卷积层特征作为图像特征,decoder一般为递归神经网络,用于图像描述生成。见图5。除encoder-decoder外,还有基于注意力和MS-Captivator方法。

图5 encoder-decoder模型
六、图像内容生成
创作一幅新的图像。
1、图像超分辨率
由一幅低分辨率图像或图像序列恢复出高分辨率图像,如图8。常见网络bicubic(双三次插值)、SRResNet、SRGAN。

图8 图像超分辨率
2、图像风格转换
Pix2pix、CycleGAN、GcGAN。

