R-CNN
R-CNN
是早期最先在目标检测领域中使用卷积神经网络的模型之一,实现了很好的检测效果
原文:Rich feature hierarchies for accurate object detection and semantic segmentation
译文:[译]Rich feature hierarchies for accurate object detection and semantic segmentation
模型结构
目标检测系统由3
部分组成:
区域建议:使用选择性搜索(
selective search
)方式检测区域建议特征提取:使用
AlexNet
实现特征提取,输入图像为零均值的227x227 RGB
图像,输出为4096
维特征向量。需要将区域建议进行图像转换,使用最简单的仿射图像扭曲方法分类:线性
SVM
分类器计算成绩,并使用贪婪非最大抑制过滤冗余边界框
论文最后还提出了使用边界框回归算法提高候选建议与标注边界框的IoU
论文结果
- 将大容量卷积神经网络应用于自下而上的区域建议,以便对对象进行定位和分割。
- 在一个大的辅助数据集(
ILSVRC
)上进行监督预训练,然后在特定的小数据集(PASCAL
)上进行特定领域的微调,是在数据稀少的情况下学习高容量CNN
的有效范例 - 更多的
CNN
表示能力来自于卷积层而不是更大的全连接层
论文实现
参考:zjZSTU/R-CNN
算法问题
- 测试时速度慢:需要对每个候选建议运行
R-CNN
完整的前向计算 - 卷积特征的训练与
SVMs
和边界框回归器无关 - 复杂的多级训练流水线