基于多视图的三维重建研究外文翻译资料

2021-12-16 23:14:21

基于多视图的三维重建研究

摘要

三维模型的获取是计算机图形学和计算机视觉领域的基础研究。然而，使用诸如3D MAX和Maya之类的建模软件，进行手动构建3D模型是非常复杂和昂贵的。因此，如何从现实世界中直接快速地获取3D模型是该领域的十分热门的研究课题。基于多视图的3D重建技术包括特征点提取和匹配，相机校准，稀疏点云重建，密集点云重建，泊松表面重建，纹理映射和许多其他技术。本文将重点介绍三维重建算法的主要算法：运动结构，多视点立体匹配和泊松表面重建。基于以上研究，本文设计了一种包含上述算法的三维重建系统。系统将目标对象的各种视图作为输入，最后输出目标物体的3D模型。最后，本文通过实验分析并且验证了该系统的有效性和可行性。

关键词：三维重建，运动结构，多视点立体，泊松表面重建

1.导言

传统的三维建模技术是利用3DMAX和Maya等建模工具，利用计算机图形学知识构建对象三维模型的技术。由于其高精度和完整的纹理信息，它被广泛应用于3D动画等领域。但在建模过程中，模型的纹理必须依赖于手动粘贴，这使得建模周期和工作量大大增加。特别是在学校，公园等现实世界的建立中，传统的建模技术无法真正恢复场景中隐藏的细节，这使得传统的建模技术受到了影响。因此，如何从现实世界中直接快速地获取3D模型是该领域的热门话题。

目前，实物三维结构的获取是一种数字存储和记录技术，在物理建模，场景建模，逼真渲染，机器人导航，目标识别和三维测量等科学和工程领域具有广泛的应用需求。，以及其他文化领域，如考古，广告，娱乐等。综上所述，基于多视图的三维重建技术研究具有重要的理论研究价值和实际应用意义。

本文的其余部分安排如下。第2节简要回顾了三维重建的相关工作。在第3节中，提出了3D重建算法。在第4节介绍了仿真结果和性能比较。最后，我们的分析结论将在第5节中介绍。

2.相关研究工作

在计算机视觉领域，从多个图像恢复相机的运动参数和空间物体的三维几何的问题被称为基于多视图的3D重建。目前，有很多三维重建的算法。Tomasi和Kanade 在假设相机是正交投影模型的前提下，使用仿射分解方法同时解决3D结构和相机运动。Debevoc 设计了著名的建筑重构系统Facade。该系统首先需要建筑物的粗糙几何模型和摄像机的运动参数，然后将模型投射回图像，并与实际图像进行比较，最终通过减少计算建筑物的精确三维结构。Pollefeys成功地将自校准和分层重建应用于考古学，文物保护等领域，取得了良好的效果。HY.Shum提出了一种人机交互式重建系统，它可以从一组全景马赛克中恢复三维结构，或者用场景得到一组除以深度的数据进行后续分析。Faugeras 使用分层重建，自动校准等方法从图像序列中重建出目标建筑物。

3.主要算法

基于多视图的三维重建技术由特征点提取和匹配，摄像机标定，稀疏点云重建，密集点云重建，泊松面重建，纹理映射等技术组成。输入的是一组图片，输出是3D模型。主要算法包括运动结构，多视图立体匹配和泊松表面重建。下面将介绍以下三种算法。

基于摄影测量的运动结构（SfM）

它是摄影测量和计算机视觉的最主要的研究成果之一。SfM算法的实现主要包括四个步骤：特征提取，特征匹配，路径生成和增量重构。增量SfM算法过程如图1所示。

图1.增量SfM算法过程

1）特征匹配：搜索每张图片中可以与其他图像区分开的特征点。在一定的搜索范围内，它被提取并存储在特征描述的符号中。在图片中，变量需要特征描述向量的不变性，这些特征描述量与图像缩放，旋转，噪声，曝光，对比度等有关。

2）特征提取：使用最近邻域法在高维空间中找到最小的欧几里德距离，以便为另一个图片中的每个特征量找到相应的描述符。

3）路径生成：22个特征描述符可以配对生成许多路径。这些路径能够组合成多个视图，并最终形成特征路径。

4）增量重建：增量重建将在初始化相机的指导下进行。找到相机对用来避免配置降级非常重要。一般来说，完美的相机对有很多对匹配和部分视差。如果两个摄像头之间的距离太小，那么三角测量将变得不稳定，并导致3D点设置不良。同时，如果许多匹配对应于与场景相应的平面区域，则摄像机的焦距和景深将没有差别。

B.多视图立体匹配

通过SfM获得的图像是重叠的。为了减少数据量并提高密集匹配的效率，需要使用Cluster Multi-View Stereo算法对图像进行分类。然后，通过基于Patch的多视图立体匹配、扩展、滤波这三个主要步骤完成最终的密集匹配，并生成密集点云。

（1）基于聚类的多视图立体匹配：基于聚类的多视图立体声算法包含以下四个步骤，见图2。

a）SfM滤波：搜索当地社区中SFM特征点的视觉信息，然后取位置信息作为每个邻域位置的平均值。这可以有效地减少输入点集的数量。重复该步骤，并组成最终输出点集。

b）图像选择：根据上述覆盖范围，删除不满足约束的图像。注意，搜索的顺序是根据从低到高的图像分辨率逐渐搜索，从而可以首先消除低分辨率图像。

c）聚类分类：通过标准分割算法，图像大小受到约束，并且覆盖约束不被分割。不满足图像大小的簇被分成较小的簇。

d）增强图像：对于未添加的每个SfM特征点，每个SfM特征点对应于唯一的效率值，并且对应于该点的最大效率值的最终选择被添加到群集。

图2.聚类算法实现过程

（2）基于贴片的多视图立体匹配：基于贴片的多视图立体匹配是一种基于多视图的良好准密集三维重建方法。该算法由匹配，扩展和滤波过程组成，从由关键点组成的稀疏点集开始，扩展关键点，并通过视觉约束滤除误差匹配点。

a）初始特征匹配：首先，提取每个图像的特征点。对于每个图像中的每个特征点，通过允许两个像素误差的极线约束，通过在其他图像中找到相同类型的特征点来形成匹配点对。然后我们使用这些匹配点使用三角测量法生成一系列3D空间点，最后尝试依次生成补丁。

b）补丁扩展：补丁扩展的目的是确保每个映像块对应至少一个补丁。通过上面生成的补丁，重复生成新的补丁。

c）补丁过滤：在重建过程中，我们可能会生成一些严重错误的补丁，因此我们需要对其进行过滤以确保补丁的准确性。

泊松表面重建泊松表面重建（PSR）

实现了从密集点云生成多边形网格的过程。PSR可以产生光滑的表面并且对噪音很稳健。利用基于泊松方程的三维表面重建技术，在具有法向量信息的三维点云模型的基础上，利用物体的几何表面信息，研究了三角形表面模型重建算法。

整个算法的步骤包括用法向量信息预处理输入点云的信息，全局问题的离散化，离散子数据的求解，泊松问题后等效面的提取，以及后来的优化。对于三维表面重建算法，泊松表面重建算法结合了全局和局部方法的优点。通过使用隐式拟合方法，通过求解泊松方程获得由点云模型描述的表面信息表示的隐式方程。通过提取等式的等值面，获得具有丰富的三维几何实体信息的表面模型。该方法重建的模型具有水密的封闭特性，具有良好的几何表面特征和细节特征。

表面重建的过程分为五个步骤。

1）定义八叉树：八叉树用于存储点集，八叉树根据采样点集的位置定义，然后八叉树细分为深度为D的叶节点.

2）设置函数空间：为八叉树的每个节点设置空间函数F，所有节点函数F和矢量场V的线性度，基函数F使用盒子滤波n维卷积。

3）创建矢量场：在均匀采样的条件下，假设块是常数，并且指标函数的梯度由矢量场V近似。使用三个样条插值。

4）求解泊松方程：通过拉普拉斯矩阵迭代求解方程的解。

5）提取轮廓曲面：为了获得重建曲面，我们需要选择阈值来获得等效曲面。首先估计采样点的位置，然后使用其平均值提取等效曲面，然后使用移动立方体算法得到等效曲面。

4.实验

我们在Windows下开发并测试了我们的多视图3D重建系统。系统将对象的各种视图作为输入，最后输出对象的3D模型。在下文中，我们将展示我们随时间获得的一些数据集的结果。

Kermit：第一个数据集叫做Kermit。它包含9个毛绒玩具和其他物体的图像。该数据集从网络获得。图3显示了9个输入图像，图4显示了稀疏点云，密集点云，多边形网格和在系统运行期间生成的最终3D模型。

图3. Kermit数据集

图4 稀疏点云（左上），密集点云（右上），多边形网格（左下）

和3D模型（右下）

Der Hass ：下一个数据集称为Der Hass，它也是从网络获得的。它包含79个巨大的石雕图像。这是一个相对紧凑的数据集，具有统一的比例，因为图像具有相同的分辨率并且在对象周围均匀分布。图5示出了物体的图像采样的角度。图6和图7示出了密集点云和Der Hass数据集的3D重建模型。

图5. Der Hass的图像采样角度

图6 Der Hass的密集点云（左）和3D重建模型（右）

图7 Der Hass Street View的密集点云（左）和3D重建模型（右）

接下来，我们从无人机捕获的182个图像重建街景。我们没有按照特定规则捕获它，这使得密集点云出现了一些洞，见图8。

图8.街景密集点云

群县建筑：我们用图9中的群仙建筑数据集结束了我们的示范。268输入图像描绘了旧的历史建筑。它产生超过50万个有效点和超过100万个面孔。

图9.群仙建筑的密集点云

结果表明，我们的系统是多功能的，可以在广泛的数据集上运行。它不仅是图像的数量，而且捕获的角度和质量决定了3D模型的质量。这意味着在紧凑物体周围的密集采样螺旋与照片之间的大重叠导致最佳结果。稀疏采样可能导致SfM中的组件断开或MVS重建中的漏洞。我们可以总结从实验中捕获图片的规则，见图10。

图10.捕获图片的规则

5.结论和期望

基于多视图的三维重建技术在计算机图形学，计算机视觉，虚拟现实等领域具有广泛的研究和应用背景。本文重点研究了基于多视图的三维重建技术的主要算法。基于上述算法，我们设计了一个三维重建系统。它将对象的各种视图作为输入，最后输出对象的3D模型。我们通过实验分析验证了系统的有效性和可行性。实验表明，该系统是多功能的，可以在广泛的数据集上运行。然而，所提出的系统中的实际限制在于管道的某些部分中的存储器消耗。输入的图片越多，占用的内存就越多。我们计划通过GPU加速部分功能匹配，使我们的系统更高效，更完美。

基于特征匹配方法的无监督深度估计

摘要

单视图图像的深度估计在三维重建中是重要的。目前阶段的无监督深度估计方法受到环境照明变化和相邻帧之间的遮挡的影响。本文将特征匹配方法与无监督深度估计网络相结合，获取相邻帧之间精确对应的位置信息。然后基于特征匹配结果更新视图合成损失函数，以增强训练管线的收敛。最后，在KITTI数据集上对所提出的方法进行了测试，并且与以前的工作相比，获得了更准确的估计结果。

关键词：深度估计，无监督学习，视图合成，特征匹配

1引言

计算机视觉可以模拟人类视觉功能，使计算机从二维平面图像中识别场景的客观现实，包括对真实场景中运动，结构和其他有用信息的理解和识别。由于现实空间中的客观场景是三维的，计算机视觉的研究和应用从根本上也应该存在于三维场景领域。因此，从单个图像获取更多信息（例如图像的深度）成为计算机视觉领域的基本问题。有许多应用，如计算机图形中的合成物体插入，计算摄影中的合成深度，机器人学中的掌握深度作为人体姿态估计的线索，机器人辅助手术，以及电影中的自动2D到3D转换。来自一个或多个摄像机的精确深度数据对于自动驾驶汽车也是至关重要的，其中经常使用昂贵的基于激光的系统。

图像的深度估计在计算机视觉中具有悠久的历史。卓有成效的方法依赖于运动结构，X形状，双目和多视图立体声。然而，这些技术中的大多数依赖于可以获得对感兴趣场景的多个观察的假设。这些可以以多个视点的形式出现，或者在不同光照条件下观察场景。为了克服这一局限，最近工程数量激增这项工作得到了国家自然科学基金会的共同支持将单眼深度估计作为监督学习问题。这些方法试图使用已经在大量地面实况深度数据上训练过的模型，来直接预测图像中每个像素的深度。

虽然上述方法取得了巨大成功，但迄今为止它们仅限于大图像集合及其相应像素深度可用的场景。因此，该方法需要大量具有二维图像的校准深度信息的数据集，这是繁重的工作并且对于实际应用非常不方便。对于这个问题，C.Godard等人提出一种无监督的学习方法，并将相对于左右图像的差异应用于训练损失。然后，周廷辉等人考虑相机的自我运动并结合深度网络和姿态网络来提高估计精度。但是，上述方法在处理以下问题时是微弱的：

1）目标视图与源视图之间的遮挡，这可能会抑制训练过程;

2）环境的光变化和图像空间变换的偏差，影响损失函数的收敛。

在这项工作中，基于周廷辉的方法，提出了一种改进的无监督学习方法来解决上述问题。通过将特征匹配结果应用于训练模型，消除了环境照明变化的影响。同时，不再考虑相邻帧之间的遮挡。该方法改善了损失函数的收敛性，提高了单目图像深度估计的准确性。

在下文中，第二章节回顾了目前国内外的研究进展，第三章节指出了我们的方法，第四章给出了我们的结果和与其他方法的对比，第五章给出了我们工作的结论。

2. 相关工作

在这里，我们首先回顾了目前关于无监督学习方法的深度估计的工作。

2.1基本框架

周廷辉等人提出了一种框架，用于从未标记的视频序列联合训练单视深度

资料编号：[4794]

您需要先支付 20元 才能查看全部内容！立即支付

注册

找回密码