基于卷积神经网络的行人重识别算法研究开题报告
2020-02-10 22:42:07
1. 研究目的与意义(文献综述)
1研究目的及意义(含国内外研究现状分析) 1.1 研究背景及目的 由于摄像机成本下降以及数据存储技术的不断提升,越来越多的道路、机场、火车站等行人密集的公共场合安装了大量的监控摄像头,形成了大型的分布式摄像网络。随着这种摄像网络的形成,相关部门可以及时监控各种公共安全事件的发生。当前人们对视频监控系统的应用还处于低级阶段,主要通过人工监控的方法寻找有效信息。由于分布式摄像网络的发展十分迅速,往往需要耗费大量的人力在海量视频中寻找到需要的信息,而且即使花费了很大的代价,也不能保证能准确的找到有效信息。因此,能够同时处理多个监控视频并准确的寻找出有效信息的视频分析算法就变得非常重要和有研究价值,成为了计算机视觉领域的研究重点[1]。 行人重识别是给定感兴趣的人,从其他摄像头或者图片中将同一个人找出来的图像检索问题,在嫌疑人抓捕、丢失儿童找回等方面有很好的应用前景。因为行人图像分辨率不高,动作姿态不同,摄像头下光照和角度都有较大变化,因而成为计算机视觉研究中的重点和难点。行人重识别中两个关键问题:特征表示和度量学习。一个有效的特征应当紧凑且对诸如视角、光照等变化具有鲁棒性;而度量学习则通过学习获得一个新的距离度量空间,使得相同行人目标之间的距离更近[2] ,从而达到重识别的目的。 深度学习是这几年来机器学习领域的热门方向,卷积神经网络(Convolutional NeuralNetwork, CNN),是深度学习领域一种非常有代表性的模型。卷积神经网络的产生受到神经生物学的启发,其计算方式和哺乳动物的视觉系统有极大的相似性,是一种端对端的识别方法。在处理图像时,不需要进行复杂的预处理操作,能够从数据中自动学习特征。卷积神经网络是由多个卷积层和全连接层构成的神经网络,在训练的过程中结合局部感受野、权值共享和池化,三个方法实现网络的优化。局部感受野使得在卷积层的学习过程中,每一层的神经元只与上一层的部分神经元连接,大大减少了参数的个数,加速了网络的训练;权值共享是指位于同一感受野的神经元权值相同,进一步减少了训练参数。池化可以降低特征图的尺寸,从而减小网络的计算量,并且增加物体平移、缩放等操作的鲁棒性。卷积神经网络在处理图像时,不需要进行复杂的预处理操作,不需要手工设计特征,能在网络训练的过程中自动学习特征,泛化能力明显比传统方法要好很多。本文主要针对利用卷积神经网络进行行人特征研究。 1.2国内外研究现状 在计算机视觉领域,深度学习近年已得到了广泛的应用,目前成功运用于图像分类、目标检测、人脸识别和姿态估计等领域。基于深度学习的行人重识别模型可以分为两类,一类是利用卷积神经网络进行特征提取,然后用度量学习算法进行识别。另一类是采用Siamese或者Triplet结构,将特征提取和度量学习结合在一起训练。 从特征描述的角度来说,现有的基于深度学习的行人重识别模型可以分为两类:一类是对单一图像的特征描述(single-image representation,SIR),另一类是对两张图像的特征描述(cross-imagerepresentation, CIR)。 SIR,是用GNN(Graph Neural Networks)方法得到每幅行人图像的特征,然后使用度量学习判断两幅行人图像是否相似。常用的卷积神经网络结构有Siamese network和Triplet network两种。在[4]中,作者提出了一个典型的Siamese卷积神经网络(SCNN)。SCNN将两张输入图像水平的划分成三个重叠的部分,分别经过两个卷积层和一个全连接层,获得将两张图片的特征向量,在最后一层相互融合并使用余弦距离计算两个特征向量的相似度。它直接将图片的特征学习和度量学习放在一个卷积神经网络中得到两幅图片的相似度。Triplet network由三个子网络构成,分别输入三张图像,把一张图像作为候选图像,剩下的两张图像,一张与候选图像为同一行人,作为正样本,另一张为不同行人,作为负样本。通过Triplet损失函数使得正样本的距离尽可能的近,负样本的距离尽可能的远。 Ding[4]等人是最早将Triplet用于行人重识别领域的,以三张图片作为输入,经过一个结构简单的卷积神经网络,使用损失函数进行相似度学习,最后使用欧氏距离进行相似度度量。 Cheng[6]等人在Ding的基础上设计了一个多通道的Triplet网络,传统的Triplet网络将整张图片作为一个三元组的输入,而Cheng等人除了输入整张图片以外,在经过第一个卷积层后,将每张图片水平地划分为4个身体部分,分别通过一个网络通道,并在FC层将5个通道的特征整合成一个整体,进行后续的相似度学习。除了改进了网络结构之外,Cheng等人在Triplet损失函数中加入了一个阈值z,令正样本间的距离小于z,进一步缩小了正样本间的距离。 [5][6]在网络的学习中,都使用欧氏距离对行人特征进行相似度度量。但是由卷积神经网络学习到的行人特征往往比较复杂,无法很好地使用欧氏距离对得到的特征进行度量。因此,在[7]中,Wang等人用马氏距离替代了[5]中使用的欧氏距离,使学习到的特征更具有判别性。Zhang等人[8]融合了深度哈希算法,使用加权的汉明距离(Hamming Distance)描述一对图像间的距离。在实际实验中,Zhang等人使用了类似于tanh函数的操作保证学习到的空间类似于汉明空间。 在上述的卷积神经网络中,都是将特征描述和距离度量相结合。实际上,在行人重识别领域,很多学者只是将卷积神经网络用于特征描述,在训练网络模型时将其视为一个多分类问题。Wig等人[9]将多个行人重识别数据库合成一个大型的综合数据集以分类为目标进行卷积神经网络的训练,对每一个数据库的数据进行前向传播,得到属于不同数据库的样本的影响因子,再使用这些影响因子进行模型的训练。Wu等人[10]则是将卷积神经网络学习到的特征与人工提取的颜色特征在全连接层相融合送到SoftMax分类器中,对融合后的特征进行分类学习。这种多分类网络模型的弊端是只有在大量训练样本的情况下得到的模型才具有较强的识别效果,若训练样本不够会导致模型无法学习到有效的识别特征。 CIR通常将行人重识别看成传统的二分类问题。Ahmed等[11]提出了一种新的卷积网络结构,设计了一个新的卷积层来计算两张图片间邻域差异,捕捉两个输入图像之间的中间层特征的局部关系,将这层输出的加权和送给全连接层,然后再送入SoftMax层进行二分类。该结构能够在分析特征的同时并利用图像特征学习到相应的图像相似性函数。Li等人[12]提出了一种六层的FPNN ( Filter Pairing Neural Network)神经网络,使用一个卷积层用来模拟光照变化,添加了一个图像块匹配层可以有效的处理监控视频中出现的行人姿态变化、光照变化、遮挡等引起行人外观差距的问题,显著的提高了识别率。Lai等人[13]提出了一个统一的深度排名和特征描述相结合的框架,能够直接对输入图像进行相似度排序。将一个标记的数据放入排名集合中,每次简单的将两张图片水平的拼接在一起输入网络中,正确的匹配排名应该靠前,通过每次迭代最小化正样本排名的加和惩罚。 CIR方法相对于SIR方法能更好的描述两幅输入图像间的关系,但需要将一幅测试图像与候选库中的每幅图像配对抽取特征,时间复杂度相对较高。而SIR则只需对候选库中的每幅图像抽取一次特征,因此可以提前抽取并存储,然后与测试图像做相似性比较。
|
2. 研究的基本内容与方案
2.研究(设计)的基本内容、目标、拟采用的技术方案及措施 2.1 设计的基本内容 本文旨在将卷积神经网络用于行人特征的提取,选用一种合适的距离度量算法,达到行人重识别的目的。
图1 行人重识别原理框图 (1)行人特征提取 使用在ImageNet上预训练好的AlexNet进行特征提取。AlexNet是在2012年ImageNet分类赛上Krizhevsky提出的图像分类模型,该网络模型有超过6000万个参数,在当年取得了比赛的第一名,分类效果远远领先于第二名。ImageNet数据库的训练集有1000个分类,每类大约有1000张图片,AlexNet就是在这个数据库.上训练得到的。由于训练样本类别足够多,训练样本容量也很大,在[14][15]中,作者将AlexNet用于目标分类、目标检测等不同的领域均取得了不错的效果,说明AlexNet可以提取出输入图像的有效特征。 (2)距离度量算法 距离度量学习的目的是对图像间的相似性进行。一个准确的测度,主要思路是让正样本之间的距离尽量的小,而负样本之间的距离尽量的大。大多数现存的度量学习方法只是使用线性变换将行人特征映射到一个新的特征空间。但是行人图片通常是处于一个非线性的流行空间,因此,线性方法无法准确的描述行人图片间的距离。为了解决这一问题,通常采用核计算方法将线性度量处理为非线性度量。 (3)对实验结果进行评估 行人重识别算法可以看作是一个相似度排序的问题,因此一般使用累积匹配特征(Cumulative MatchingCharacteristic, CMC)[3]曲线对实验结果进行评估。设有一个存在n张行人图片的候选库G={g1,g2,…,gn}和待测试库P={ p1,p2,…,pm }, m表示待测试库的大小。对于一幅待测试图像将其与候选库中的每幅图像的距离进行相似度排序。也就是说,给定一个待查询的行人目标,在候选库的很多行人中找到该目标,CMC值表示在前N个结果中找到该目标的概率。其中第一匹配率(rank-1)表示在侯选库中,最匹配的行人正好是目标行人的概率。同理,rank-k 表示在候选库中,目标行人出现的概率正好在与目标相似的前k张图片中的概率。在行人重识别中,常常使用rank-1到rank-30的概率作为衡量算法的指标。侯选库的行人数量越多,能准确找到目标行人的概率越低,rank-1 的值也越低。rank-1指标是CMC曲线中最重要的指标,rank-1 指标越大,则代表算法的识别效果越好。 2.2研究目标 利用卷积神经网络对一个待查询的行人目标进行特征提取,依据度量学习方法得到的距离进行排序,由排序的结果算出rank-1。rank-1 指标越大,则代表算法的识别效果越好,能够从候选库中找到与原图相似度最高的图片,达到行人重识别的目的, 2.3 拟采用的方案及措施 本文将卷积神经网络用于行人特征的提取,选用一种合适的距离度量算法,达到行人重识别的目的。拟采用的方案如下:
由于训练深层的卷积神经网络需要大量的数据样本才能得到良好的卷积神经网络模型,为了解决训练样本有限的情况下模型训练的问题,在基于两个公开的行人重识别数据库VIPeR和CUHKO1上,首先使用了在ImageNet上预训练好的卷积神经网络模型AlexNet,然后使用Caffe[16]框架,分别用这两个数据库对AlexNet进行微调。之后使用微调得到的模型对两个数据库的测试图像进行特征提取,使用kLFDA度量学习方法对所得到的特征进行相似度度量,通过在VIFeR和CUHKOI两个数据库上进行实验,根据rank-1指标来判别卷积神经网络在行人重识别领域的可行度。 (1)在AlexNet进行特征提取 使用了在ImageNet上预训练好的卷积神经网络模型AlexNet。AlexNet层网络模型一共有五个卷积层,三个池化层,三个全连接层以及一个SoftMax层,AlexNet模型的网络结构如图3所示:
图3 AlexNet网络框图
一个卷积层使用多个卷积核与上一层的输出进行卷积操作,得到多个特征图。同一个特征图的中的神经元权值共享。不同的特征图的神经元权值不同,得以区分不同的特征。在网络模型的训练中会对权值进行优化。 池化层是对上一层的每一个特征图进行采样操作,上一层的特征图经过池化(Pooling)后个数不变,尺寸减小。在对池化窗口进行取值的过程中,选取其中数值最大的一个特征向量作为该窗口的输出。 激活函数是神经网络领域的概念,能提高神经网络的表达能力。本文采用ReLU作为激活函数,可以防止随着网络的迭代过程达到饱和状态,函数出现梯度消失造成信息丢失的现象发生。 卷积神经网络中的全连接层的每一个神经元与上一层的所有神经元连接。一个人工神经网络中的每一层都有大量的神经元,通过这些神经元组合,就得到了一个结构复杂的神经网络。对于一个有三个输入值的神经元,它对输入信息的处理过程如图4所示:
图4 单个神经元处理信息 图4表示一个神经元此时有三个输入值 ,这三个输入值在通过该神经元后的输出为:
其中,x是一个输入向量,W为每个输入在该神经元中的权重,b为偏置,函数 称为激活函数。
(2)对过拟合现象的处理 在训练网络模型时,如果训练样本过少,则会出现过拟合现象。过拟合(over fitting )是指训练得到的模型对于训练数据能有很好的拟合,但对于测试数据,不能很好的拟合数据。Dropout是指在网络的训练过程中,进行权值更新时,随机的让某些隐含单元的权重不工作,每次只使用部分的隐含单元进行权值的更新。 (3)距离度量学习 这里度量学习采用kLFDA算法。局部费舍尔判别方法(Local Fisher Liscriminant Analysis,LFDA) [17]是一种基于局部保持投影(LPP )[18]和费舍尔线性判别(FDA) [19]。结合降维分类算法,使不同类别的样本在投影空间具有更好的分离性。而kLFDA则在LFDA的基础上引入了核方法,将LDFA推广到非线性空间,改善了小型数据库、由于降维而导致特征失去鉴别性。
|
3. 研究计划与安排
3.进度安排
|
4. 参考文献(12篇以上)
4.参考文献 [1] 刘娜. 基于卷积神经网络的行人重识别算法[D].华东师范大学,2017. [2] 宋婉茹,赵晴晴,陈昌红,等.行人重识别研究综述[J].智能系统学报,2017. [3] GouM, Xiong F, Camps Cl, et al. Person Re-Identification Using Kernel-BasedMetric Learning Methods: European Conference on Computer Vision(ECCV),European,Zurich, Switzerland, 2014[C]. [4] YiD, Lei Z, Liao S, et al. Deep Metric Learning for Person Re-identification:Conference on Pattern Recognition (ICPR), Stockholm, Sweden, 2014[C]. [5] DingS, Lin L, Wang G, et al. Deep feature learning with relative distancecomparison for personre-identification. 2015 [J]. [6] ChengD. Person Re-Identification by Multi-Channel Parts-Based CNN with TripletLoss Function: Vision and Pattern Recognition (CVPR), Nevada, USA, 2016[C].IEEE. [7] [31]Wang G, Lin L, Ding S, et al. DARE Distance metric And RepresentationIntegration for Person Verification[J].2016. [8] [32]ZhangR, Lin L, Zhang R, et al. Bit-Scalable Deep Hashing With RegularizedSimilarity Learning for Image Retrieval and Person Re-Identification[J].ImageProcessing IEEE Transactions on, 2015, [9] [33]XiaoT, Li H, Ouyang W, et al. Learning Deep Feature Representations with DomainGuided Dropout for Person Re-identification[J].2016. [10] [34]Wu S, Chen Y C, Li X, et al. An enhanced deep feature representation for personre-identification: Winter Conferenceon Applications of Computer Vision (WACV),IEEE,Lake Placid, NY, USA, 2016[C]. [11] [35]AhmedE, Jones M, Marks T K. An improved deep learning architecture for personre-identification: Computer Vision and Pattern Recognition (CVPR),IEEE,Columbus, OH, USA, 2015[C]. [12] LiW, Zhao R, Xiao T, et al. DeepRelD: Deep Filter Pairing Neural Network forPerson Re-identification: IEEE Conference on Computer Vision and PatternRecognition, 2014[C]. [13] [37]Chen S Z, Guo C C, Lai J. Deep Ranking for Person Re-identification via JointRepresentation Learning. IEEETransaction on Image Processing : A Publication of the IEEE Signal ProcessingSociety, 2016[J]. [14] DonahueJ, Jia Y, Vinyals O, et al. DeCAF: A Deep Convolutional Activation Featurefor Generic Visual Recognition: Advances in Neural Information ProcessingSystems (NTPS ),LakeTahoe. USA, 2012[C]. [15] RazavianA S, Azizpour H, Sullivan J, et al. CNN Features Off-the-Shelf: An AstoundingBaseline for Recognition: Computer Vision and Pattern Recognition(CVPR),IEEE, Columbus USA, 2014[C]. [16] Tia,Yangqing, Shelhamer, et al. Gaffe: Convolutional Architecture for FastFeature Embedding. 2014[J]:675-678 [17] PedagadiS, Orwell J, Velastin S, et al. Local Fisher Discriminant Analysis for PedestrianRe-identification: Computer Vision and Pattern Recognition(CVPR),IEEE,Providence, Rhode Island, 2013[C]. [18] HeX, Nyogi P. Locality Preserving Projections (LPP). Advances in InformationProcessing Systems, 2002[J]. [19] FisherR A. The Use of Multiple Measurements in Taxonorrtic Problems.Annals of HumanGenetics, 1936[J].
|