目标检测数据库的建立及应用开题报告
2022-01-11 17:45:38
全文总字数:2455字
1. 研究目的与意义及国内外研究现状
计算机视觉的主要目标之一是理解视觉场景。场景理解涉及许多任务,包括识别目标是否存在,在2D和3D场景中定位目标,确定目标和场景的属性,表征目标之间的关系,并提供一个场景的语义描述。目前的目标分类和检测数据集[帮助我们研究与场景理解有关的第一个挑战。例如,包含了数量空前的图像的ImageNet数据集最近帮助实现目标分类和检测的重大突破。一些社区也创建包含目标属性,场景属性,关键点和三维场景信息的数据集。这导致我们思考一个明显问题:什么数据集能最好地帮助我们继续前进到我们的最终目标即现场理解?国内外研究现状
国外比较成功的有imagenet,SUN,Microsoft coco等数据集,当然比较早期的还有mnist,cifar数据集
国内并没有比较知名的数据集,而一些比较知名的算法主要有yolo,ssd之类。
2. 研究的基本内容
目标检测数据集的分析与建立。检测一个目标需要指出当前目标是否属于指定类,并在图像中定位。一个目标的位置通常由一个边界框来表示。早期的算法使用点对点的数据集来进行人脸检测[32]。后来更现实并更具有挑战性的人脸检测数据集被创建。另一个流行的挑战是对行人检测,对此很多数据集又被创建。加州理工的行人数据库包含35万用边界框标记的实例。由于检测多个物体(例如太阳镜,手机或椅子)高度依赖上下文信息,检测数据集在它们自然环境中包含目标是非常重要的。在我们的数据集中我们努力收集富含上下文信息的图像。边界框的使用也限制了评估检测算法的准确性。我们建议使用完全分割实例来进行更精确的检测评估。图像分类(Image Classification)是指根据图像信息所表现的不同特征利用特定算法将不同类别的目标区分开来的图像处理方法。它实际上是寻求一种算法来试图模仿和替代人类视觉对图像的处理过程。线性、非线性的两种特征提取方法是主要的传统的图像分类方法。线性方法比较有代表性的有主成分分析法、投影寻踪和基于Fisher准则的线性鉴别分析法等。非线性方法主要有支持向量机、核主成分分析等。随着人类生活质量的提高,其对图像分类方法的要求也愈来愈高。传统的图像分类方法在泛化性能上表现欠佳,比如识别树叶的表现性能较好,但不能对人脸进行很好地识别。此外,图像中的物体易受光照和尺度变化的影响,使得传统方法的鲁棒性能变得不理想。
3. 实施方案、进度安排及预期效果
主要是对一些知名数据集的分析,以此来建立属于自己的数据集。
其中,场景中目标语义标签的任务要求图像的每个像素都被标记为属于一个类别,如天空,椅子,地板,街道等。
与检测任务相反,目标的个体实例不需要分割。
4. 参考文献
[1] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei,“ImageNet: A Large-Scale Hierarchical Image Database,” in CVPR,2009.[2] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman,“The PASCAL visual object classes (VOC) challenge,” IJCV, vol. 88, no. 2, pp. 303–338, Jun. 2010.[3] J. Xiao, J. Hays, K. A. Ehinger, A. Oliva, and A. Torralba, “SUN database:Large-scale scene recognition from abbey to zoo,”inCVPR, 2010.[4] P. Dollar, C. Wojek, B. Schiele, and P. Perona, “Pedestrian detection: Anevaluation of the state of the art,” PAMI, vol. 34, 2012.[5] A. Krizhevsky, I. Sutskever, and G. Hinton, “ImageNet classification withdeep convolutional neural networks,” in NIPS, 2012.[6] R. Girshick, J. Donahue, T. Darrell, and J. Malik, “Rich feature hierarchiesfor accurate object detection and semantic segmentation,” in CVPR, 2014.