运动场景中人头部特征提取和辨识文献综述
2020-06-03 21:53:07
客流量给商场、机场、车站等公共场所的管理和决策不可或缺提供总要参考价值,对于不少行业来讲,客流量可以直接反映出它的经营业绩。随着人工智能技术的飞速发展,以及行业需求的扩展,在现阶段的视频监控领域中,研究一套有效的,高精度的,功能全面的客流量统计系统已经成为一个研究热点。客流量统计的实际应用主要有以下几方面,在公交车站,地铁站等场所根据客流量数据信息可以分析各公交线路的交通拥挤程度,在商场中根据客流量数据信息可以分析顾客的消费购买习惯以及商业行情,在安保方面则可以利用客流量监控系统监控总要路口以防止防止异常事件的发生。同时客流量统计的总要意义还表现在:通过对出入口的客流量可以判断该出入口的设置是否合理;通过监控不同商场楼层的客流量让店面布局更为合理;通过对客流量数据的分析可以有效的估计当前营销和促销策略的投资回报;通过、条线路上的客流量统计可以估计和优化宣传广告的预算等等。
客流量统计技术有着非常广阔的应用前景,很多公司和科研院所都展开相关方面的技术研究,国内的许多企业如北京的智安邦,保定的天河,杭州的海康威视,浙江的大华,以及深圳的飞瑞斯等都研发了自己的基于机器视觉技术的客人流量统计产品,但是至今为止,这些产品都只能应用于少数特定的应用场合,并不能形成一个大规模的市场,这也反映出了客流量统计技术的研究依旧有很大的发展空间。基于计算机视觉的客流量统计系统通常都应用了视频图像处理技术、模式识别技术以及人工智能等领域的相关技术。一有效的客流量统计系统需要能够应对不同的背景环境以及其变化和应对多人同时通过检测区域并判别移动物体的复杂情况,但是从复杂多变的背景环境中精准的判别出其中的人体目标并对其进行跟踪任然是是机器视觉领域中的一个极具挑战性的问题。
从基于计算机视觉的客流量统计技术的应用背景中可以知道,要完成客流量统计工作,需要进行运动目标检测以及运动目标跟踪这两个环节。运动目标检测和运动目标跟踪是计算机视觉研究中的两个相关的问题,如果要获取视频图像序列中运动目标的行为特征,首先就需要进行运动目标检测,知道目标从哪里进入,在知道了运动目标在图像中的位置之后,才有可能对目标进行跟踪,针对这两方面,目前已有大量的研究。
目标检测可以只用一帧图像的信息进行处理,也可以可以利用多帧图像的信息进行融合以便提高检测的有效性与准确率。根据目标检测的原理,主要有以下方法:(1)根据特征点进行目标检测,针对图像中不同区域的纹理特性,与其它低级图像特征相比特征点具有很好的描述能力,该方法对于摄像机角度变化以及光照变化等不敏感。常用的特征点有KLT 特征点、Harris 特征点、SIFT特征点Moravec 特征点、和 Hausdorff 特征点。其中的SIFT 特征点对尺度缩放、旋转、光照强度变化均可保持不变形,且对摄像头视角变化和噪声也有一定的抗干扰能力,近年来的应用较为广泛,但是 SIFT 特征点的计算量却相对较大。(2)基于背景建模进行目标检测,背景建模是目前应用最为普遍的一种运动目标检测方法,基本方法是选取视频图像序列中的初始几帧图像构作为场景的背景模型,然后利用输入图像与背景图像的差异检测前景目标,同时要实时更新背景模型。但如何建立一个实时的背景模型其中的一个难点,且该方法只能用于场景固定的情况下。通常背景建模方法有:单高斯背景模型,混合高斯背景模型,核密度估计背景模型,码书背景模型,基于局部二值模式的背景模型等。(3)基于机器学习进行目标检测,通过模拟人类视觉认知事物的规律来进行视频图像中的目标检测识别,就是说,人们预先采集大量目标的图像,将这些待识别的图像构成训练样本集,然后通过特征描述子将样本集中的图像映射到一个特征空间中,再利用机器学习算法从特征空间中学习得到该目标的分类判别模型,之后即可使用该模型进行目标的检测识别。使用该方法时,训练样本集由样本图像及人工标注的样本类别号组成,同时特征描述子的形式和机器学习方法的选择是一个非常重要的问题。目前比较流行的几类特征描述子包括:梯度方向直方图(HOG)、局部二值模式(LBP)、尺度不变特征旋转变换(SIFT)、矩形特征(Haar)等,人们经常使用的机器学习算法有:人工神经网络、自适应提升的 AdaBoost、决策树 以及目前被广泛使用的支持向量机等。但是该方法得到的目标分类模型通常只能针对某一类固定的监控场景在某些自然条件下才能取得较好的效果,当监控场景或自然条件发生变化时,使用该方法得到的目标分类模型检测目标时,目标检测效率将会大打折扣,因此,近年来基于在线增量学习 (Online Learning)的方法逐步受到诸多学者的重视。
目标跟踪同样也是计算机视觉领域中一个非常困难的问题,跟踪之所以困难主要是存在如下几方面的因素:(1)从现实三维世界到二维图像存在着大量的信息损失,目标形态发生了巨大的改变。(2)图像本身存在噪声的干扰,而掩盖了大量的真实信息。(3)客观世界中目标运动的规律异常复杂,同时目标姿态也往往变化莫测。(4)自然场景的复杂多变,同时目标之间的相互遮挡是非常普遍的现象。(5)实际产品中对跟踪系统处理能力的实时性要求。目标跟踪的解决算法,大体可以分为如下四类:基于目标三维模型的跟踪、基于区域的跟踪、基于动态轮廓的跟踪及基于图像特征的跟踪。(1)基于三维模型的目标跟踪方法是预先建立目标的三维描述模型,然后根据观察到的图像,采用某些技术手段从中恢复出目标的三维结构,并对目标的各类属性进行预测以实现对目标的定位跟踪。(2)基于区域的跟踪需要先检测出图像中的运动区域(通常称之为前景),然后再运用数据关联计算的机制实现目标的定位跟踪。(3)基于动态轮廓的目标跟踪算法
则是采用目标的外形轮廓曲线作为目标的表述,再通过连续自适应的更新目标轮廓曲线来实现运动目标的定位跟踪。(4)基于特征的目标跟踪算法主要包括了特征的提取和特征的匹配两个过程,主要是通过特征匹配来实现目标的定位跟踪。
目标跟踪算法的出发点可以是多种多样的,但是其本质上都可以归纳为一个贝叶
斯后验概率最大化的求解问题,故它们常用的数学工具是基本一致的,比如:卡尔曼滤波(Kalman Filtering)和改进的卡尔曼滤波算法 、动态贝叶斯网络(DynamicBayesian Network)算法以及基于蒙特卡洛采样理论的粒子滤波器(Particle Filtering)算法等等。其中,粒子滤波器方法能够有效的解决非线性、非高斯型动态系统的后验概率求解问题,因而倍受学者的青睐。
计算机视觉领域的技术研究近年来取得了突飞猛进的发展,学者的研究目标已经不再局限于做人体检测或者人体跟踪了,而是越来越多的期望将二者结合起来共同作为某些上层应用的底层输入,人流量统计技术就是在这样一个背景下出现的,并逐渐成为该领域的研究热点。Gianluca Antonini针对某一特殊场景提出了一种简洁的方法,它先采用背景建模的方法获得场景中的前景信息,然后再结合一系列先验假设得出哪些可能是行人的前景块。在行人跟踪模块,预先对样本数据进行分析,对行人的真实行为轨迹建立了相应的数学统计模型,根据数学统计模型可以对跟踪的轨迹进行有效的滤波处理,保留那些运动轨迹最接近真实行人轨迹的目标。这种方法的最大优势就是避开了直接进行行人检测识别,降低了系统的复杂度,节省了运算时间,但这样的代价是可能造成过多的估计了目标的真实数目。当一个行人被分为好几个前景块时,一个目标会产生多条轨迹。随后 Gianluca Antonini 提出了一种基于目标轨迹在线聚类的方法克服了目标数目过多估计的问题。Vincent Rabaud 等人提出了一种利用特征跟踪和聚类来估计密集场景中目标数量的方法,该方法要求场景中所有的运动目标都是同一类型。他采用了一种可高效可并行的 KLT 跟踪机制将视频图像序列转化为运动目标的特征轨迹集合,然后在特征空间上将这些在空间或时间上断开的轨迹进行聚类,利用特征轨迹的类心分布来估计目标的密度分布。朱松纯等人提出了一种新颖的基于流速度场估计的思想来实现 LOIC 型和 ROIC 型行人流量统计的问题,该思想把经过侦测线的行人看作流体,并设计一个新的模型来估计流速场,计算像素速度,结合时间,利用速度值构造动态的镶嵌来计算通过侦测线的像素和边缘的数目。最后,把加权像素的数目和边缘的数目作为输入值使用二次回归算出行人的数目。张艳宁等人针对此问题也提出了一种新颖的特征点跟踪和在线聚类的单目摄像机公交车客流量统计方法,该方法和通常的背景建模和前景块跟踪相比,试验结果表现更好的优越性。该方法的突出贡献在于设计了一种综合利用目标的表观、消失时间及其他相关信息而将高维的目标特征向量映射到 2 维空间的聚类算法。