基于多视角投影及深度学习的三维物体识别研究开题报告
2020-02-10 23:38:48
1. 研究目的与意义(文献综述)
随着计算机性能的提升和数字多媒体处理技术的快速发展,三维模型在机器人仿真,自动驾驶,人机交互等领域应用越来越普及[11,13]。因为自然世界中的三维物体自身的高维度、真实性等特性,在生物识别、自动驾驶、人机交互等应用领域上三维模型具有比以往二维图像更广泛的应用场景。这种新的传媒载体因和现实世界的相似,非常适合与人机交互,在ar,vr,mr上的应用越来越普遍,比如miscrosoft hololens设备能够不受线缆限制的与数字内容交互,并与周围真实环境中的全息影像互动。利用其真实性特点,在生物识别尤其是人脸识别登陆认证方面,在iphone x引入face id,在android8.1以后引入的人力识别功能,利用用户的3d脸部模型唯一性(近似)实现刷脸认证,和传统的指纹识别认证方式相比安全性有了很大的提高。
经过多年的研究,计算机视觉在字符图像识别和二维图像物体分割、分类、识别的问题上取得了较大的发展,在公开的数据集上取得了90%以上的准确率[15],但是在二维图像的成像过程中,丢失了大量物体本身的三维信息[12],所以蕴含三维信息的三维模型在物体识别的问题上的如何使用正在收到学者们的关注。三维物体识别还拥有一些二维图像物体识别研究中所不重点关注的问题,比如物体的姿态(位置和姿态),这些信息在在机器人对环境的感知和无人驾驶车辆对周边车辆的识别上面有着丰富的应用[15]。三维物体识别问题虽然在数据集上的识别准确度达到了90%以上,但是一个通用的高效的系统目前没有广泛的使用,现在只是在某一类模型上面进行识别对比,比如人脸模型,而且实时性要求不高[15]。
类别级物体识别与检测属于计算机视觉领域的一个基础性问题[14],本文的工作则是三维模型应用的最重要也是最基本的应用-三维物体分类问题。
2. 研究的基本内容与方案
基本内容与目标:
通过文献阅读及综述对三维物体识别问题,特别是对基于多视角投影与深度学习相结合的方法的背景及研究现状要有清晰的认识与理解;
掌握多视角投影构建方法,设计合理的多视角投影模型,确保投影结果(二维图像)能够较好的反映被投影物体的特征,要求不低于12个视角;
掌握深度学习模型的基本原理,并构建适用于多视角二维图像训练及测试的深度学习模型,并且能够实现对多视角投影图像的识别。
要求至少在两个三维识别公开数据集上进行测试,并取得较好识别效果。
技术方案及措施:
大体上分为三个步骤:
1)构造三维物体的多视角投影结果
(a)选用公开的数据集比如:ShapeNet, ModeNet。数据库中的3D模型通常存储为多边形网格,其是与形成面的边缘连接的点的集合。为了生成多边形网格的渲染视图,使用Phong反射模型[1],网格多边形在透视投影下渲染,像素颜色通过插入多边形顶点的反射强度来确定。形状均匀缩放以适合观察体积。
(b)设计投影模型,分为两种情况,视点数目分别为12, 20*4, 方向均为视点到质心的方向上。
质心计算为网格面中心的加权平均值,其中权重是面部区域
第一种情况,假设:视点在同一平面上
视点位置:以物体的质心为原点,建立空间直角坐标系o-XYZ,其中X,Y轴水平方向,Z轴竖直方向,则视点位于以原点为球心的球面上,与Z轴正向成30度, 角度为[0:30:360]共12个。
第二种情况,因为上面的假设,可能导致针对在投影过程中损失的信息过
多,要想减少信息的损失,一个简单的方法就是通过增加视点的位置下面就是这个原则进行设置。
视点位置: 包围形状的20面体的20个顶点,然后绕形状的轴旋转0, 90, 180, 270度,共20*4个位置,作为视点(80个)。
| |
| |
(c) 根据上述投影模型生成相关的二维图像。
2)深度学习的实现
3D形状的多视图表示中的每个图像分别通过网络的第一部分(CNN 1),在视图池层聚合,然后通过剩余部分发送网络(CNN 2)。网络的第一部分中的所有分支在CNN 1中共享相同的参数。在视图池层中的视图中使用逐元素最大化操作。视图池层可以放置在网络中的任何位置。在实验中表明它靠近最后一个卷积层(conv 5)放置,以获得最佳的分类和检索性能。视图池层与最大池层和最大层[14]密切相关,唯一的区别是它们的池操作执行的维度。可以使用具有反向传播的随机梯度下降来训练或微调。
3)系统架构
(a)功能分析
该系统的主要由两个部分组成,首先在选择的数据集上,设计实现模型,然后验证在数据集上的识别任务准确度和检索精度。
(b)设计实现
系统设计总体思路为:首先,从公开的数据集上获得若干种类三维物体的不同视角的二维图像,从中提取出二维图像的特征,然后将二维图像的特征信息聚合到一个视图池层,最后经过一个CNN网络进行学习,得到最终的聚合形状描述符,通过反向传播的随机梯度下降来训练,以获得更好的精确度。针对检索任务,利用上面最终生成的聚合形状描述符,可以实现识别任务,并且达到一定的精确度。
3. 研究计划与安排
(1)2019年1月11日-2019年1月31日:阅读三维物体识别相关文献,特别是基于多视角投影及深度学习的三维物体识别相关文献;
(2)2019年2月1日-2019年2月28日:掌握实验所需的平台环境及编程语言(例如matlab及tensorflow),学习多视角投影相关理论方法以及实验所需深度学习模型,并尝试实现已阅读文献中的部分方法,完成开题报告;
4. 参考文献(12篇以上)
[1] su h, maji s, kalogerakis e, et al. multi-view convolutional neural networks for 3d shape recognition[c]. ieee international conference on computer vision (iccv), 2015.