[数据集]PASCAL VOC 2007
相关实现:zjykzj/vocdev
简介
PASCAL VOC 2007
数据集基于4
个大类别,共包含了20
个目标类:
Person: person
Animal: bird, cat, cow(奶牛), dog, horse, sheep(绵羊)
Vehicle(交通工具): aeroplane(飞机), bicycle, boat(小船), bus(公共汽车), car(轿车), motorbike(摩托车), train(火车)
Indoor(室内): bottle(瓶子), chair(椅子), dining table(餐桌), potted plant(盆栽植物), sofa, tv/monitor(电视/显示器)
PASCAL VOC 2007
数据集主要用于分类/测试任务,同时也提供了分割和人体部件检测的数据。示例如下:
类别
从标注文件中提取20
个类别名,并按首字母排序
1 | def find_all_cates(annotation_dir): |
结果如下:
1 | ['aeroplane', 'bicycle', 'bird', 'boat', 'bottle', 'bus', 'car', 'cat', 'chair', 'cow', 'diningtable', 'dog', 'horse', 'motorbike', 'person', 'pottedplant', 'sheep', 'sofa', 'train', 'tvmonitor'] |
数据
- 标注准则参考Annotation Guidelines
- 详细的训练/验证数据集的个数参考Database Statistics
通过标注文件的方式提供了训练/验证/测试集的数据。整个数据集分为50%
的训练/验证集以及50%
的测试集。总共有9963
幅图像,包含24640
个标注对象,具体信息如下
- 训练数据:
2501
张图像,共6301
个目标 - 验证数据:
2510
张图像,共6307
个目标 - 训练+验证数据:
5011
张图像,共12608
个目标
1 | # -*- coding: utf-8 -*- |
下载
训练相关
- 训练/验证数据集下载:training/validation data
- 工具包代码(
Matlab
版本)及开发文档:development kit code and documentation - 单独下载的开发文档:PDF documentation
测试相关
- 测试数据集(含标注)下载:annotated test data
- 单独的标注信息下载:annotation only
解析标注数据
VOC
数据集的图像保存在文件夹JPEGImages
中,标注数据保存在Annotations
中
编写如下代码解析标注数据,将训练/验证/测试数据从原图像中提取出来
1 | # -*- coding: utf-8 -*- |
通过解析XML
文件,获取图像名以及标注的目标名和边界框数据;通过OpenCV
读取图像,截取图像后保存在指定类别文件夹
引用
如果利用了VOC 2007
数据,可以引用(citation
)以下参考信息:
1 | @misc{pascal-voc-2007, |