基于深度学习的目标跟踪文献综述
2020-04-14 19:54:30
1.1 目的及意义
现阶段,随着硬件设施的不断完善和人工智能领域的快速发展,运动目标跟踪技术越来越重要。目标跟踪在现实生活中有很多应用,包括交通视频监控、运动员比赛分析、智能人机交互、跟踪系统的设计等。在计算机视觉领域,基于视频的目标跟踪技术一直都是研究的要点和难点。它基本的流程是:通过在视频初始帧给定的目标检测框得到所要跟踪的目标,然后通过一系列视觉方法得到目标的特征,并在接下来的视频帧中成功定位到该目标,从而得到目标运动的速度、轨迹和方向等信息,进一步应用在各个领域上去。
不同于目标检测,由于基于视频的目标跟踪中常会遇到场景复杂,种类繁多并且多变,影响参数过多,以及由物体本身运动特性产生的遮挡、形变、位置急剧变化等情况。因此,如何找到一种行之有效的方法,使其能够具有足够的鲁棒性处理以上可能存在的各种复杂情况成为了当下亟待解决的问题。
在前几年的跟踪研究中,基于速度与性能的双重考虑,相关滤波方法占据了一席之地。随着深度学习的发展,其强大的学习能力以及优秀的特征表达能力在计算机视觉的其他领域如在检测与识别中展现了巨大的潜力,人们由此意识到了基于深度学习对于目标强大的特征抽象能力以及对目标运动过程的拟合能力,开始将深度学习应用在基于视频的目标跟踪领域上来。
1.2 国内外研究现状分析
将深度学习应用在目标跟踪领域,通常有两种思路,一是将深度特征代替传统的手工特征放入相关滤波器中以加强语义信息提高跟踪精度;二是使用一个或者多个网络结构的组合实现目标跟踪。因此,基于深度学习的目标跟踪通常分为基于深度特征的目标跟踪以及基于深度网络的目标跟踪。
最近几年的VOT竞赛中,相关滤波 深度特征的方法取得了先进的表现。HCF方法,利用已知的图像位置,根据其对应的Conv3-4、Conv4-4、Conv5-4特征,训练三个不同的相关滤波器。HDT方法基于集成学习的思想,利用VGG16提取出 6个深度特征,并使用这些深度特征训练独立的相关滤波器计算各自的响应,将许多个追踪器结合在一起获得一个更强的追踪器。连续卷积跟踪算子(CCOT)方法可将不同分辨率的特征图作为滤波器的输入,使得传统特征和深度特征能够深度结合,得到目标的估计位置。高效卷积算子(ECO)构造一组更小的滤波器,利用矩阵分解操作,防止过高的维度导致的效率低下和过拟合问题,同时改变模板更新的策略,提高效率。
除此,由于深度网络强大的拟合能力与适应能力,对于完整的深度网络在目标跟踪上的研究也一直是个热点。但是基于深度网络的目标跟踪不得不面对两个至关重要的难题:一是因为在目标跟踪中的正样本只有初始帧中的目标,没有大量的数据难以训练出性能优良的分类器;二是深度学习方法中卷积层数量的提高以及训练网络的复杂,算法的实时性很低,不能满足快速运动目标的实时跟踪。但在基于深度学习的目标跟踪中,在处理单目标跟踪问题的时候,不需要太大的网络,因此基于深度网络的目标跟踪也有许多算法被提出。
DLT算法首先将深度学习方法应用到目标跟踪中,它针对在线训练时正样本缺失的问题,提出了一种离线训练与在线调整相结合的方法。MDNet(多域卷积网络)算法基于迁移学习的思想,采用VGG-M的部分结构。整个网络只运用3层卷积和两层全连接最后用以实现前景和背景的二分类任务,运用不同视频通过目标检测网络提取所有运动物体的特征,准确率上达到了不错的效果。BranchOut算法是基于bagging集成的在线跟踪思路,由三个卷积层和多个全连接层的分支组成。网络中每个独立的分支有着不同数量的全连接层,用来保证目标的可抽象能力。同时在跟踪过程中,根据伯努利分布选择相应随机Branch子集来训练网络,在没有预训练的情况下也达到了不错的的效果。
随着跟踪技术的不断发展,基于数据驱动的学习方式在跟踪领域也必将占据着越来越重要的作用,但需要恰当地平衡深度网络强大的表征能力所需要的计算量和跟踪问题的实时性需求,还有可改进的空间。