Stability AI 与 Tripo AI 合作开发了 TripoSR,这是一个受到最新研究<a href="https://yiconghong.me/LRM/" target="_blank" rel="noopener"> LRM(大型单图像到3D重建模型)</a>启发的快速3D对象重建模型。 TripoSR能够在不到0.5秒的时间内从单张图片生成3D网格。 它基于Transforme架构,结合了多项技术改进,以提高重建效率和质量。 <h3>主要能力:</h3> <ol> <li><strong>快速3D对象重建:</strong> TripoSR能够在不到0.5秒的时间内,从单张图片快速生成3D网格模型,这对于需要快速从2D图像转换到3D模型的应用领域(如娱乐、游戏开发、工业设计和建筑)来说,提供了巨大的便利。</li> <li><strong>高质量3D生成:</strong> 它利用改进的数据处理和模型设计技术,生成的3D模型在定量和定性方面均优于现有的开源方案。</li> <li><strong>广泛适用性:</strong> 通过采用多样化的数据渲染技术,TripoSR能够更接近地模拟现实世界中图像的分布,从而显著提高模型对于各种场景的泛化能力。模型能够处理不同类型和领域的输入图片,重建出各种类型对象的高质量3D模型。</li> <li><strong>开源共享:</strong> TripoSR在MIT许可下发布,提供源代码、预训练模型和在线交互式演示,促进了研究和开发社区的进步。</li> </ol> <h3>技术原理:</h3> <strong>模型架构:</strong> TripoSR采用基于Transforme的架构,专门为从单张图像到3D重建设计。其核心组件包括图像编码器、图像到三维平面(triplane)解码器和基于三维平面的神经辐射场(NeRF)。 <ol> <li><strong>图像编码器:</strong> 使用预训练的视觉变压器模型DINOv1初始化,将RGB图像投影到一组潜在向量中,这些向量编码了图像的全局和局部特征,包含重建3D对象所需的信息。</li> <li><strong>图像到三维平面解码器:</strong> 将潜在向量转换到三维平面-NeRF表示,这是一种紧凑且表达丰富的3D表示方式,适合表现具有复杂形状和纹理的对象。</li> <li><strong>三维平面基NeRF模型:</strong> 包含一系列多层感知机(MLP),负责预测空间中3D点的颜色和密度。</li> </ol> <strong>技术改进:</strong> <ol> <li><strong>数据策划和渲染:</strong> 为训练数据,精心策划了一个更高质量的CC-BY子集,即 Objaverse 数据集。采用多样化的数据渲染技术,提高训练数据的质量,增强模型的泛化能力。</li> <li><strong>三维平面通道优化:</strong> 优化了三维平面-NeRF表示中的通道配置,平衡了重建质量和计算效率,允许在训练阶段使用更大的批量大小和更高的分辨率。</li> <li><strong>掩模损失函数:</strong> 引入掩模损失函数减少了“浮动”伪影,提高了重建的真实性。</li> <li><strong>局部渲染监督:</strong> 完全依赖渲染损失进行监督,采用了高分辨率渲染策略,通过渲染训练图像的随机补丁来平衡计算效率和重建的细节。</li> </ol> <img class="size-full wp-image-1496 aligncenter" src="https://img.xiaohu.ai/2024/03/QuantitiveComparisonwithSOTAon3DReconstruction.jpg" alt="" width="850" height="714" /> <h3><strong>测试结果:</strong></h3> <ol> <li><strong>定量比较:</strong> 在GSO和OmniObject3D验证集上进行的定量比较显示,TripoSR在Chamfer Distance (CD) 和 F-score 指标上显著优于所有基线方法,包括One-2-3-45、ZeroShape、TGS (TriplaneGaussian) 和 OpenLRM。这些结果证明了TripoSR在精确捕捉3D对象形状和细节方面的高效能。</li> <li><strong>性能与运行时间:</strong> TripoSR不仅在性能上表现出色,而且在推理速度上也有显著优势。在NVIDIA A100 GPU上,TripoSR能够在大约0.5秒内从单张图像生成3D网格,这使其成为最快的网络之一,、这一速度比其他图像到3D模型,如OpenLRM,快得多,显示出TripoSR在快速3D对象重建方面的显著优势。</li> <li><strong>视觉结果:</strong> 报告中还展示了不同方法的定性比较结果。与其他一些方法如ZeroShape和TGS相比,TripoSR能够生成具有更高质量和更好细节的3D形状和纹理。TripoSR不仅能够更好地捕捉到对象的整体3D结构,还能够在模拟复杂细节方面表现出色。</li> </ol> 详细介绍:<a href="https://stability.ai/news/triposr-3d-generation" target="_blank" rel="noopener">https://stability.ai/news/triposr-3d-generation</a> 技术报告:<a href="https://stability.ai/s/TripoSR_report.pdf" target="_blank" rel="noopener">https://stability.ai/s/TripoSR_report.pdf</a> 模型下载:<a href="https://huggingface.co/stabilityai/TripoSR" target="_blank" rel="noopener">https://huggingface.co/stabilityai/TripoSR</a> 在线演示:<a href="https://huggingface.co/spaces/stabilityai/TripoSR" target="_blank" rel="noopener">https://huggingface.co/spaces/stabilityai/TripoSR</a> GitHub:<a href="https://github.com/VAST-AI-Research/TripoSR" target="_blank" rel="noopener">https://github.com/VAST-AI-Research/TripoSR</a>