基于深度学习的目标跟踪毕业论文
2021-04-05 13:13:03
摘 要
随着当今生活的发展,对机器智能化提出了更高的需求,因此如何使计算机学会“看”——即自动提取视觉信息,成为了目前的研究热点之一。近年来,深度学习技术在目标检测领域已经取得了有效的进展,因此将深度学习的强大能力应用在其相近领域——目标跟踪上,成为了必然的研究趋势。
本文主要研究使用深度学习技术实现对视频目标的跟踪。首先对近年来出色的目标跟踪算法进行梳理,介绍了早期采用传统特征的相关滤波方法,以及后期融合深度特征的相关滤波方法以及基于深度网络的跟踪算法。通过对深度学习和神经网络基础原理的介绍,阐述深度学习技术在该研究方向的可行性。基于深度学习技术,结合现有的算法特点,提出了本文的跟踪算法。本文算法基于预训练的AlexNet架构,构建了由五个卷积层、三个全连接层组成的卷积神经网络。训练时,将视频的前后一对图像帧进行一定的裁剪后送入卷积层,并行提取图像特征进行输出,在全连接层实现对特征的差异分析,通过回归得到当前帧的矩形标注框,实现目标的跟踪。针对深度网络训练速度慢这一问题,采用全部离线预训练的方式来提高跟踪时的实时性。同时采用数据扩充的方式得到训练数据集,来增强跟踪器的鲁棒性。
通过对跟踪器的测试得到,本文提出的算法在一般环境下能对目标进行有效的跟踪。
在处理速度方面,本文算法中每帧平均处理时间为0.35~0.55s,在相同的硬件环境下对已有算法MDNet进行跟踪测试,该算法每帧平均处理时间为25s左右,通过对比,可得到本文算法表现出较快的跟踪处理速度。
关键词:深度学习;目标跟踪;卷积神经网络
Abstract
With our life’s development, there is a higher demand for machine intelligence. So, how to teach computers to "see the world", which is extracting visual information has become a research hotspot. In recent years , deep learning technology has made efficient progress in the field of target detection. Therefore, considering applying the powerful representational capacity of deep learning in the related field--target tracking has become an inevitable research trend.
Our research focuses on using the deep learning technology to achieve target tracking in video. Based on the analysis of the excellent visual tracking algorithms in the previous, our paper introduces the correlation filtering method with traditional features in the early stage, the correlation filtering method with depth features in the later stage and the algorithm based on deep network. Through introducing the basic principles of deep learning and neural networks, the feasibility of applying deep learning techniques in target tracking direction is expounded. Based on deep learning and combined with the characteristics of existing algorithms, the paper proposes a new tracking algorithm. In our algorithm, based on the AlexNet architecture which is pre-trained on the ImageNet dataset, our convolutional neural network consists of five convolutional layers and three fully connected layers. During training, we clip a pair of adjacent frame images and sent them to the convolutional layer. In the convolutional layer, we extract features of two input images in parallel and output the features. In the fully connected layer, we analyze the difference between the two frames. And in the end, through regression training, obtaining a rectangular box in the current frame to achieve the tracking of the target. In view of the slow training speed of deep networks, all offline pre-training methods are adopted to improve the real-time performance during tracking. In addition, to improve the robustness of the tracker, the training data is expanded.
Through the test of the tracker, the algorithm proposed in this paper can effectively track the target in the general environment. In terms of processing speed, the average processing time per frame in our algorithm is 0.35~0.55s. In the same hardware environment,we also test the existing algorithm MDNet. Its average processing time per frame is about 25s. Our algorithm shows faster tracking processing speed.
Key Words:Target Tracking;Deep learning;Convolutional neural network
目 录
第1章 绪论 1
1.1 课题研究的背景及意义 1
1.2 国内外研究现状 2
1.3 本文主要研究内容及组织结构 3
第2章 相关技术基础 5
2.1 深度学习简介 5
2.2 深层神经网络基础 5
2.2.1 简单神经网络 5
2.2.2 深度神经网络 6
2.3 卷积神经网络基础 8
2.3.1卷积神经网络简介 8
2.3.2卷积层 9
2.3.3池化层 10
2.4 本章小结 11
第3章 基于深度学习的目标跟踪 12
3.1本文跟踪方案概述 12
3.2跟踪器输入设计 13
3.2.1 输入方案设计 13
3.2.2 数据集的选取 13
3.2.3 数据扩充方案 14
3.2.4 数据生成设置 15
3.3跟踪器的网络设计 15
3.3.1 AlexNet介绍 15
3.3.2 基于迁移的网络设计 16
3.4跟踪器训练设计 17
3.4.1 输入数据的设计 17
3.4.2 训练过程的设计 17
3.4.3 训练的优化设计 18
3.5训练过程的算法实现 19
3.5.1 获取网络输入的算法实现 19
3.5.2 网络前向传播算法实现 20
3.5.3 损失函数和优化算法实现 20
3.6跟踪器测试算法实现 21
3.7 本章小结 22
第4章 实验过程及分析 23
4.1 实验设置 23
4.1.1 实验环境设置 23
4.1.2 样本数据设置 23
4.1.3 网络超参数设置 23
4.2 训练过程分析 24
4.3 跟踪测试分析 26
4.3.1 测试过程及结果 26
4.3.2 测试跟踪准确率 29
4.3.3 测试跟踪速度 30
4.4 结果分析 31
第5章 总结与展望 32
5.1 全文总结 32
5.2 未来展望 32
参考文献 33
致谢 35
第1章 绪论
1.1课题研究背景及意义
随着如今生活各种设施的完善和智能科技的快速发展,利用计算机实现智能化已经成为了许多领域的研究方向。作为人工智能领域的一个分支,计算机视觉的研究是致力于使机器学会“看”,其包含了目标检测、目标跟踪以及目标分割等多种任务。其中,由于目标跟踪在日常生活中有着丰富的应用,如智能视频监控、无人机的自动跟踪、无人智能驾驶等多个方面,因此得到性能较好的跟踪器也成为了一个研究热点。
我们需要在视频初始帧选取一个跟踪目标,在后续帧中跟踪定位该目标,通过数据分析处理得到目标的运动信息等,再在各个实际场景中应用这些信息。在这一应用过程中,如何实现在后续帧中对初始目标的定位,就是我们目标跟踪算法所要研究的内容。不同于目标检测,实际视频中目标运动带来的的各种不确定变化,增加了其研究的复杂度。
目标运动过程中,由于本身的运动特性以及周围环境的影响,使得实现稳定的跟踪面临着各种挑战,如目标物体姿态形状的变化、远近距离带来的尺度变化,快速运动带来的位置变化、复杂场景中的被遮挡和短暂消失变化以及光照影响、模糊等问题。同时为了适应视频目标的动态性,这对跟踪算法的处理速度也提出了一定的要求。因此,得到一种具有鲁棒性、实时性的跟踪器成为了一个研究热点。