基于部分的深度哈希学习在大规模人员识别中的应用外文翻译资料
2021-12-15 22:37:56
Part-based Deep Hashing for Large-scale Person Re-identification翻译:
基于部分的深度哈希学习在大规模人员识别中的应用
摘要:大规模的行人识别是一种发展趋势。比如,在大型画廊中执行实时搜索就很关键。以前的方法主要集中在歧视性学习【判别学习】本文尝试将深度学习和哈希结合到一个框架中,评价大型行人识别的有效性和准确性,我们通过将行人图像分割成水平部分,将空间信息整合成具有识别性的视觉表示。具体地说,提出了一种基于部分的深度哈希算法(PDH),其中使用了一批的三重样本作为深度哈希结构的输入。每个三联体样本包含两个具有相同身份的行人图像(或部分)和一个具有不同身份的行人图像(或部分)。采用三重损失函数,约束相同身份的行人图像(或部分)的Hamming距离小于不同身份的行人图像(或部分)。在实验中,我们证明了所提出的基于部分深度哈希的方法在大规模的数据集上具有很强的识别精度
关键词:深度学习,哈希,基于部分,大规模行人重识别
- 引言
本文着重研究了大规模的行人重识别(RE-ID),由于其在行人检索中的潜在应用,在自动化监测,交叉摄像机跟踪和异常检测中受到越来越多的关注。给定一个行人图像,行人重识别的目标是在交叉摄像机数据库中匹配包含同一个人的边界框。由于光线、姿势和视角的多样性,匹配交叉场景具有挑战性。行人重识别介于图像分类[1]、[2]、[3]和检索[4]、[5]之间,在[6]中进行了详细讨论。前人的工作通常为[7]、[8]、[9]、[10]
这项工作部分由国家自然科学基金(NSFC)创新研究基金会71421001资助,部分由国家自然科学基金(NSFC)资助61502073和授予61429201,部分由国家模式识别实验室开放项目计划资助201407349,部分由ARO的Qi Tian博士授予W911NF-15-1-0290,以及NEC美国实验室和Blippar颁发的教师研究礼品奖。(通讯作者:孔向伟)
F.Zhu、X.Kong和H.Fu在中国大连理工大学信息与通信工程学院工作(邮箱:fuqingzhu@mail.dlut.edu.cn;kongxw@dlut.edu.cn;fuhy@dlut.edu.cn)。
L.Zheng在澳大利亚新南威尔士州悉尼理工大学工作。(邮箱:liangzheng06@gmail.com)。
本文引文: F. Zhu, X. Kong, L. Zheng, H. Fu, and Q. Tian, “部分深度哈希方法在大规模行人重识别中的应用,” IEEE图像处理事务, DOI: 10.1109/TIP.2017.2695101, 2017.
利用图像分类和检索。这项工作考虑了两个问题:效率和CNN模型的有效描述符。一方面,行人重识别中,计算效率一直是人们研究的一个问题。一些最先进的方法采用了蛮力特征匹配策略[11],[12],获得了良好的匹配率。然而,这些方法在大规模应用中的计算效率较低。在[13]、[10]的激励下,我们将行人重识别视为图像检索的一项特殊任务。两个任务共享相同的目标:查找包含与查询相同对象/行人的图像[10]。因此,解决大规模行人重识别的上述效率问题的合理选择涉及图像检索技术的使用。哈希,以快速近似近邻(ANN)搜索而闻名,是我们的解决方案工具包中的一个很好的候选者。哈希方法的主要思想是构造一系列哈希函数,将图像的视觉特征映射到一个二进制特征向量中,使视觉相似的图像映射到相似的二进制代码中。最近,基于深度神经网络的哈希算法[14]、[15]、[16]、[17]、[18]、[19]比传统的哈希算法获得了更高的精度。然而,据我们所知,很少有工作使用哈希来处理大规模的行人重识别问题。
另一方面,卷积神经网络(CNN)已经证明了它在提高人的识别率[20]、[21]、[7]、[9]方面的有效性。Siamese CNN模型使用训练图像对作为输入,并使用二进制分类丢失来确定它们是否属于同一ID。这种交叉图像表示方法可以有效地捕捉两幅图像之间的关系,解决水平位移问题。对于传统的基于分类的郑等人 [9] 的CNN模型,提出学习一种ID识别嵌入方法,对测试集中的行人进行识别。这些方法在获得可观的行人重识别识别精度的同时,也没有解决效率问题,因为它们通常使用欧几里得距离或余弦距离进行相似性计算,这在大型画廊和高特征尺寸下是耗时的。目前最大的行人重识别数据集market-1501[10]包含32668个带注释的边界框,以及一组500K图像的干扰器。它为行人重识别方法提出了缩放问题。因此,本文研究如何平衡行人重识别的有效性和效率。
我们在这项工作中所采用的方法,如上所述,是由哈希和CNN推动的,这两个方法分别考虑了效率和准确性。采用基于三重损失的监督深度散列框架来解决大规模行人重识识别的效率问题。三重深度神经网络[22]、[23]、[24]已用于人脸识别[23]和细粒度图像相似性模型[24],通过施加相对距离约束来学习区分嵌入。相对距离约束的目的是最小化正对之间的距离,同时让负对相互远离。与在绝对范围内限制正负对的距离相比,此约束是灵活的。此外,行人图像的空间信息有利于提高行人重识别的识别精度,因为与使用整个行人图像相比,行人的局部区域提供了更精确的匹配策略。基于局部的技巧有助于提高人脸验证的准确性,如DeepID[25]和DeepID2[26]。在DeepID[25]中,人脸图像被转换为10个部分,分别是从弱对齐的人脸和以面部标志物为中心的局部区域中获取的全局区域。然而,DeepID的部分划分策略不适合保证大规模行人重识别的效率。为了简单起见,本文只将整个行人图像划分为水平的3或4个部分,而没有任何语义对齐策略。我们的工作在基于三重网络的深度神经网络工程[22]、[24]的基础上,对大规模的行人重识别进行了两方面的改进。首先,在CNN的中间层,设计了一个哈希层,使网络输出适合二值化。第二,提出的网络由多个子网络分支组成,每个子网络分支都是一个基于三重网络的深度网络。在此基础上,提出了一种基于局部深度散列(PDH)的大规模行人重识别方法。我们的目标是使用深度CNN为每个行人图像生成一个二进制表示,1)能够有效区分不同的身份,2)整合空间限制,3)提高大型步行廊的记忆和速度效率。我们的代码将在网站https://sites.google.com/site/fqzhu001上提供。
与以往有关行人重识别的研究不同,本文主要研究了Market-1501数据集及其与500K图像相关联的干扰器集的散列方法。据我们所知,在香港中文大学03[7]上,只有一篇发表的论文使用了深度散列法对个人识别号[18]进行了处理,每个画廊分割的数据集只有100个身份。我们证明,与其他几种竞争方法相比,我们的方法能够产生有效但高效的重识别绩效。本文的主要贡献如下。
- 在最初的尝试中,我们采用哈希来提高大规模行人重识别的效率。虽然之前的一些工作[18]仅使用小数据集,但本文报告了最大Market-1501和Market-1501 500kd数据集的大规模评估结果,从而获得了对哈希任务的更多见解。二元哈希码实现了大规模人脸识别的快速匹配,解决了计算和存储效率的问题。
- 在深度哈希框架中集成了一个基于零件的模型,以提高视觉识别能力。相对应的。与基线相比,性能显著提高。论文的其余部分组织如下。在第二节中,我们对相关工作进行了回顾。建议的PDH方法将在第三节中进行描述。在第四节中,在Market-1501和Market-1501 500K数据集上给出了广泛的结果。最后,我们在第五节结束本文。
- 相关工作
本文采用深度哈希法研究了大规模行人重识别的有效性和准确性。所以,我们回顾了行人重识别方法,包括手工制作和深入学习的功能,以及哈希方法。
- 人工识别人员的方法
以前的主流行人重识别通常集中在视觉特征表示[11]、[13]、[31]和距离度量学习[32]、[33]、[34]。关于特征表示,Ma等人[35]利用Gabor滤波器和协方差描述符来处理照明变化和背景变化,而设计不对称驱动的局部特征累积(SDALF)描述符。受最近大型图像检索领域的高级词语包(BOW)模型的启发,郑等人[10]提出了一种无监督的基于BOW的描述符。通过生成训练数据的代码本,每个行人图像都被表示为基于可视词的直方图。李等。[37]学习基于筛选和颜色柱状图的交叉视图字典,以在不同视图中获得有效的补丁级别功能,用于行人重识别。马等。[38]使用fisher vector(FV)对补丁的局部特征描述符进行编码,以提高行人重识别的性能。廖等。[8]提出了一种构造对光照和视点变化不变的描述符的方法。赵等。[11]提出了一种根据行人图像中的显著性信息对稀有颜色进行不同权重分配的方法。然而,传统的手工修复的视觉功能可能无法最佳地表示图像的视觉内容。这意味着一对语义相似的行人图像可能没有欧几里得距离相对较小的特征向量。在人体识别的距离测量学习方法中,广泛使用了激光测距机vm[34]、[32]和助推法[33]。B.Prosser等人[34]使用RANKSVM学习相似度参数,将人员重新识别任务作为排序问题解决。kissme[39]和eiml[40]的方法是有效的度量学习方法,如[41]所示。
- 深度学习的行人重识别方法
近年来,最先进的行人重识别方法已被深度学习模式所主导。主要优点是CNN框架可以单独优化特征表示[9]或同时学习特征和距离度量[7]。李等。[7]提出了一种基于补丁匹配层和最大输出分组层的滤波器配对神经网络(FPNN)。利用面片匹配层来学习横视图像中水平条带的位移,利用最大值分组层来增强面片匹配的鲁棒性。Ahmed等人。[20]通过计算两个输入图像之间的邻域距离,设计一个改进的深度神经网络,通过添加一个特殊层来学习交叉图像表示。SoftMax Classi fier添加到用于行人重识别的已学习交叉图像表示中。易等。[42]采用由两个子网络组成的暹罗建筑。每个子网络独立处理一个图像,并将图像的最终表示连接起来,通过一个特殊的层来评估相似性。深度网络是通过保持两幅图像的相似性来训练的。作者评估了Viper[43]和Prid-2011[44]数据集的性能。然而,Viper和Prid-2011都是相对较小的数据集。E.Usinova等人[45]利用基于双线性CNN的双线性池方法进行行人重识别,该方法在多个区域内实现,用于提取两个大型数据集CUHK 03[7]和Market-1501[10]中更有用的描述符。陈等人。[21]设计一个深度排名框架来制定行人重识别任务。图像对在水平方向上转换为整体图像,然后将这些图像输入CNN,学习这些表现。最后利用排序损失来保证正匹配图像对比负匹配图像对更相似。王等。[46]设计一个联合学习的深度CNN框架,其中对单个图像表示的匹配和交叉图像表示的分类进行联合优化,以获得更好的匹配精度和适中的计算成本。由于单图像表示是有效的匹配,而交叉图像表示是有效的建模之间的关系探针图像和画廊图像,融合两种表示损失一起是利用这两种表示的优势。肖等。[47]提出了一种利用CNN从多个领域学习通用和强大的深层特征表示的方法,其中使用领域引导的退出算法来改进特征学习过程。
- 散列方法回顾
由于散列技术的发展,特别是基于深度CNN的哈希技术的发展,使得快速近似近邻(ANN)搜索领域有了很大的发展。对于非深度哈希方法,哈希代码生成过程有两个阶段。首先,图像由手工制作的视觉特征向量(如gist描述符)表示。然后,使用单独的投影或量化步骤生成哈希码。无监督哈希和有监督哈希是两种主要流,如谱哈希(SH)[48]、迭代量化(ITQ)[49]、半监督哈希(SSH)[50]、最小损失哈希(MLH)[51]、鲁棒离散化哈希(RDSH)[52]、零哈希(ZSH)[53]和核监督哈希(KSH)[54]。然而,基于手工特征的哈希方法在处理复杂的图像语义结构时可能不太有效,从而产生次优哈希码。深度散列方法直接将输入的原始图像映射到哈希代码,从而获得特征表示和从特征到哈希代码的映射。夏等。[14]提出了一种有监督的深度散列方法CNNH,将学习过程分解为从相似矩阵中学习近似哈希码的阶段,接着是基于所学习的近似哈希码同时学习哈希函数和图像表示的阶段。赵等。[15]提出了一种深层语义排序哈希(DSRH)方法,利用多级语义排序监督信息学习哈希函数,保持多标签图像之间的语义相似性。赖等人。[16]通过设计良好的深层架构开发“一阶段”监督哈希框架。深度神经网络采用共享子网络,使特征学习和哈希编码同时进行。林等人。[17]通过在CNN中添加一个潜在层,提出了一种逐点监督的深度散列方法,用于快速图像检索。张等。[18]提出了一种新的监督位可伸缩深度散列方法,用于图像检索和行人重识别。通过设计一个元素层,可以获得哈希码的位伸缩性,在需要不同长度的哈希码时,更容易执行特殊任务。在图像检索中采用了深度散列技术,而基于零件的方法是提高图像检索性能的常用方法。然而,这两种技术很少分别在人员重新标识和散列任务中进行评估,特别是在大规模环境中。我们的工作与以前的工作不同。我们在Market-1501和Market1501 500K数据集上应用了这些简单而有效的技术,并提供了有关如何在大规模背景下提高行人重识别性能(效率和准确性)的见解。
三,拟采用的方法
行人重识别的任务是在交叉摄像机场景中匹配相关的行人图像进行查询。由于行人在不同场景下的变化,空间信息对于提高图像表示的识别能力具有重要意义。这是将基于部分的模型集成到基于基线三重集的深度散列框架
英语原文共 12 页
资料编号:[5007]