监控场景下行人检索系统的设计与实现文献综述
2020-04-14 22:17:29
1.1、课题的研究目的和意义
随着社会的进步与发展,公共安全和个人安全已经越来越受到重视[1],乌鲁木齐“7.5”打砸抢烧暴力犯罪事件、“3.1”昆明火车站暴力恐怖案等一系列重大恶性案件的发生,不仅严重威胁到人民群众的生命财产安全,而且造成了极其恶劣的社会影响。2005年以来全国开展的“城市视频监控与报警示范工程”建设,至2009年全国已建成报警与监控系统26.8万余个,安装的摄像探头达275.3万余个,477个试点单位已全部完成报警与监控系统建设任务,全国报警与监控系统已初具规模,形成了全天24小时、全方位的立体防控体系[2]。视频监控在防控不法活动以及侦破各类案件中发挥着越来越重要的作用。近年来,随着我国城市视频监控系统的普及,公安部门刑事侦查破案方式发生了巨大的变革,视频监控已成为案件侦破的重要手段。视频侦查技术已成为新的破案增长点,成为了继刑事技术、行动技术、网侦技术之后的侦查破案的第四大技术支撑[3]。
视频侦查在我国已从前期推广使用阶段转变为中期广泛运用阶段。在各级城市均有非常广泛的设备基础与机制建设,达到了基本的预想效果。但是,在实际视频侦查工作中,大量侦查员需要调看案发时间前后、案发现场附近的监控视频,并逐步扩大调看范围,以便从多个摄像头所拍摄的视频中查找同一行人目标的活动画面和轨迹,进而锁定、排查和追踪嫌疑目标[4]。由于缺乏可靠的视频智能化分析与检索技术,目前视频侦查大多是以人工浏览的方式进行,这需要耗费大量的人力物力。以“长沙周克华案”为例,民警所看的视频量相当于83万部电影(一部电影500M来计算),光是视频回看就有超过2000人[5]。这种方式不仅效率低下,而且极易错过最佳的破案时机,已经完全不能满足现代刑事侦查工作对于“快速反应,快侦快破”的业务需求。因此,在视频侦查中,针对特定嫌疑行人的检索已成为亟待解决的重要课题。
视频侦查中特定嫌疑目标的检索不仅具有极为迫切的应用需求,而且还具有非常重要的研究价值。第一,和传统的视频检索技术最大的不同在于研究对象,传统的视频具有明确语义属性的某一类对象、行为或事件,而视频侦查感兴趣的是某一类对象中的特定个体;第二,实际视频监控中,目标对象的画面质量较差、尺度多样,而且还存在明显的视角、光照变化,这些因素的存在使得面向视频侦查的监控视频检索问题较一般基于实例的视频检索要更加困难。正是由于上述特点,计算机视觉领域的学者们形象地将多个摄像头环境下针对特定行人目标的监控视频检索问题称为行人检索,如图1。
图1 行人检索
当前的行人检索任务相当于行人检测和行人重识别两项任务的结合。行人检测的主要目的是对给定的图像或视频帧,找出所有行人的位置信息。而行人重识别的主要目的是指辨识不同摄像头下的行人是否为同一个人,从而达到识别特定感兴趣目标的目的。现有的行人重识别研究工作大多集中在行人图像的外貌特征描述和度量尺度学习两个方面,通过利用行人结构化特性构建的鲁棒性外貌特征以及学习有判别力的距离度量函数来判断查询行人是否属于目标行人。尽管很多方法在标准数据集上取得了不错的效果,但行人重识别需要人工获取各个摄像头下视频帧的行人图像,因此与实际应用场景还有差距。而行人检索结合了行人检测与行人重识别两项任务,通过行人检测为行人重识别提供各视频帧的行人图像。