基于机器视觉的目标检测与跟踪研究文献综述
2020-04-14 19:44:29
随着计算机技术的高速发展,运动物体的检测和跟踪在图像处理、计算机视觉、模式识别、人工智能、多媒体技术等领域越来越受到人们的关注。运动跟踪和检测的应用广泛,在智能监控和人机交互中,如:银行、交通、超市等场合常常使用运动跟踪分析技术,通过定位物体并对其行为进行分析,一旦发现物体有异常行为,监控系统就发出警报,提醒人们注意并即时的处理,改善了人工监督注意力分散、反应时间较慢、人力资源浪费等问题。运动目标的跟踪在虚拟现实、工业控制、军事设备、医学研究、视频监控、交通流量观测监控等很多领域也有重要的实用价值。特别在军事上,先进的武器导航、军事侦察和监控中都成功运用了自动跟踪技术。而跟踪的难点在于如何快速而准确的在每一帧图像中实现目标定位。正因如此,对运动目标的跟踪和检测的研究很有价值。
运动目标检测是图像处理与计算机视觉的一个分支,在理论和实践上都有重大意义,长久以来一直被国内外学者所关注。在实际中,视频监控利用摄像机对某一特定区域进行监视,是一个细致和连续的过程,它可以由人来完成,但是人执行这种长期枯燥的例行监测是不可靠,而且费用也很高,因此引入运动监测非常有必要。它可以减轻人的负担,并且提高了可靠性。概括起来运动监测主要包括三个内容:运动目标检测,方向判断和图像跟踪。运动目标检测是整个监测过程的基础,运动目标的提取准确与否,直接关系到后续高级过程的完成质量。
运动目标检测在国外已经取得了一些的研究成果,许多相关技术已经开始应用到实际系统中,但是国内研究相对落后 ,与国外还有较大差距。传统的视频目标提取大致可以分两类 ,一类以空间同性为准则 ,先用形态学滤波器或其他滤波器对图像作预处理;然后对该图像的亮度、色度或其他信息作空间上的分割以对区域作边缘检测;之后作运动估计,并合并相似的运动区域以得到最终的提取结果。如光流算法、主动轮廓模型算法。此类方法结果较为准确但是运算量相对较大。另一类算法主要以时间变化检测作为准则 ,这类算法主要通过帧差检测图像上的变化区域和不变区域 ,将运动物体与静止背景进行分割。此类方法运算量小,提取结果不如前类方法准确。此外,还有时空结合方法、时空亮度梯度信息结合的方法等等。
2. 研究的基本内容与方案
{title}在进行运动目标检测时,一个很重要的步骤就是区分出运动目标和背景范围,常见的一种情况是摄像机处于静止状态并且焦距也是固定的。此时,图像中的背景区域固定不动。在这种情况下,运动目标识别无论是使用背景差法,还是使用背景差法结合帧间差法,质量良好的背景的建立显得及其重要。另外,当涉及到背景的使用时,一旦背景发生一些变化时,如背景中频繁地出现运动物体,或者光照发生变化、树叶等小物体的晃动等等,使得不能准确地提取背景作为参考图像,从而不能正确地分割出视频序列中的运动物体。为了克服上述问题,国内外众多研究人员提出了背景建立和自适应的背景模型,实现了背景模型的实时更新,能够比较准确地识别出运动目标。在能够满足实时性和实用性要求的前提下,讨论并研究下列几种算法:(1)手动背景法,需要人观察到没有前景物体时启动该帧图像,作为背景图像。这种背景提取方法增加了人力和物力的需求,而且在很多情况下很难在没有前景的情况下获得背景图像,比如高速公路的车辆监测系统、小区的门禁系统等等。这种方法不能实现自适应背景更新的功能,需要使用其他方法修正由于光线,亮度等的变化带来的背景误差。(2)统计中值法,考虑到运动物体较少的情况下,连续多帧图像中背景的像素值占主要部分,这样在一段时间内变化缓慢,取中值便可以认为是背景图像。统计中值算法从统计学的角度统计单个像素点Ai(x,y),(i=1,2,…N)在连续帧图像中的亮度值Bi。在一段时间内对视频序列图像的亮度值(或者色彩信息) Bi进行排序,然后取中值Mi(x,y)作为背景。该算法存在的问题在于:图像帧的像素点大多以数万,数十万的数量级出现,而用于取中值的图像帧数量N也应该比较大。对如此大的数组进行排序取出中值,实现时计算量较大,处理较慢。同时需要占用大量的内存单元用于存储数据。(3)算术平均法,提取背景图像时可以总结为在特定的时间段内对像素点的亮度和色彩信息取平均值,用均值作为背景图像对应像素点数值。在读入一段视频时,对某一像素点进行观察,会发现在没有前景的运动目标通过时,该点的灰度值保持稳定,变化很小,只有当前景的运动目标通过时,该点的灰度才会发生剧烈的变化。这样就可以连续读入N帧图像,对图像各点的灰度或色彩信息进行统计的方法,使得变化剧烈的像素点变得平缓,取其平均值作为背景图像像素点的值。这样也可以滤除背景图像中的突变噪声点。在实际场景中,一段时间内,同一区域很少有可能总是存在运动物体。而通过平均法得到的背景就会消除亮暗分布不均匀的情况。
目前,大多数的运动目标检测的方法或是基于图像序列中时间信息的,或是基于图像序列中空间信息的。常见的方法有如下3种:
(1)光流法
当目标运动时,图像上对应目标的亮度信息(光流)也相应的运动。这样,根据时间上相邻的几帧图像可以计算出各像素点运动的大小和方向,从而利用运动场来区分背景和运动目标。其主要优点在于能检测出独立的运动目标,而不需预知场景的任何信息,对变化的复杂背景情况有较好的适应。但其缺点也很明显,由于要依赖光流估计的准确程度,大多数计算方法相当复杂并且计算量特别大,所以除非有特殊的硬件支持,否则很难实现实时检测。