腾讯推出的一体化 3D 生成框架:<strong>混元3D-1.0</strong> ,支持从文本和图像生成 3D 内容,仅需 10 秒便可生成3D模型。 <ul> <li><strong>文本到 3D</strong>:用户可以通过简单的文本描述生成 3D 对象。例如,描述一片绿叶或一把棕色吉他,模型将生成对应的 3D 物体。 [video width="2012" height="1724" mp4="https://img.xiaohu.ai/2024/11/Jietu20241105-180343-HD.mp4"][/video]</li> <li><strong>图像到 3D</strong>:支持多种尺度的物体重建,从大型建筑到小型工具和植物都能准确生成。 [video width="2000" height="1630" mp4="https://img.xiaohu.ai/2024/11/Jietu20241105-180510-HD.mp4"][/video]</li> <li><strong>多视角生成</strong>:生成物体的多角度2D视图,确保3D模型的细节和一致性,让模型看起来更真实。</li> <li><strong>快速3D重建</strong>:利用多个视角的图像在短时间内重建出完整的3D模型,约10秒即可完成,适合需要快速生成3D内容的应用。</li> <li><strong>高分辨率细节增强</strong>:具备提升细节清晰度的超分辨率模块,让生成的3D模型更加精细。</li> <li><strong>显式3D网格输出</strong>:支持直接输出可编辑的3D网格,方便在其他3D软件中进一步编辑和使用。</li> <li><strong>10 秒内生成</strong>:包括网格和纹理提取在内,整个过程在 10 秒内完成。</li> </ul> [video width="1280" height="720" mp4="https://img.xiaohu.ai/2024/11/twittervid.com_si_pbc_fb0105.mp4"][/video] <h3>技术细节</h3> <ol> <li> <h5><strong>两阶段生成流程</strong>:</h5> <ul> <li><strong>第一阶段:多视角扩散模型(Multi-View Diffusion Model)</strong> <ul> <li><strong>多视角生成</strong>:在该阶段,模型生成多个视角的 RGB 图像,每个图像从不同的角度捕捉目标对象。这些多视角图像保留了 3D 对象的丰富纹理和几何信息,将 3D 生成任务从单视图重建转化为多视角重建,从而提升了 3D 生成的准确性。</li> <li><strong>生成速度</strong>:<strong>标准版本的多视角生成过程约耗时 4 秒</strong>,lite 版本优化了生成速度,适用于需要更快速响应的场景。</li> <li><strong>降噪与一致性</strong>:多视角图像生成过程中,扩散模型会通过控制噪声水平和视角一致性,使得图像质量更高,为后续的 3D 重建奠定基础。</li> </ul> </li> <li><strong>第二阶段:前馈重建模型(Feed-Forward Reconstruction Model)</strong> <ul> <li><strong>3D 重建</strong>:基于第一阶段的多视角图像进行 3D 重建,约需 7 秒。在第二阶段,前馈重建模型基于第一阶段生成的多视角图像快速重建出高精度的 3D 模型。这个阶段大约耗时 3 秒。</li> <li><strong>噪声与不一致处理</strong>:前馈模型具备处理噪声和多视角不一致的能力,通过对图像信息的进一步提取和合成,生成更加完整和真实的 3D 结构。</li> <li><strong>最终输出</strong>:重建的 3D 模型包含完整的网格和纹理信息,适用于直接应用于 VR/AR、游戏和动画等领域。</li> </ul> </li> </ul> <h5><img class="aligncenter size-full wp-image-15275" src="https://img.xiaohu.ai/2024/11/e5919bc3e19848dcbf59.png" alt="" width="1341" height="564" />2. 0度仰角摄像机轨道设置</h5> <ul> <li><strong>技术描述</strong>:在多视角生成阶段,摄像机被设置为0度仰角(水平视角),并沿特定轨道移动以捕捉物体的多个视角。</li> <li><strong>技术优势</strong>:0度仰角设置使生成的多视角图像间的可见区域尽可能大化,从而确保视角之间的内容一致性。这种设置可以有效减少视角间的不一致性,提高3D重建的准确性。</li> </ul> <h5>3. 自适应分类器无指导机制</h5> <ul> <li><strong>技术描述</strong>:混元3D-1.0 在多视角生成中采用了自适应的分类器无指导(CFG)机制,根据不同的视角和时间动态调整CFG值,以平衡细节的控制和视角的一致性。</li> <li><strong>技术优势</strong>:传统固定的CFG值可能会导致某些视角下生成图像出现阴影或细节丢失,而自适应CFG机制根据视角的不同动态调整CFG值,使得模型在保持细节的同时增强了生成图像的多样性和一致性。</li> </ul> <h5>4. 混合输入方法</h5> <ul> <li><strong>技术描述</strong>:在稀疏视角重建阶段,除了使用已知视角的RGB图像,混元3D-1.0 还引入未校准的条件图像作为辅助视图,以补充多视角生成图像中未被覆盖的区域。</li> <li><strong>技术优势</strong>:混合输入方法可以有效地弥补多视角图像的盲区,提高3D重建的准确性。尤其对于一些视角不完整的物体(如顶视图),该方法可以更好地恢复3D模型的完整形状。</li> </ul> <h5>5. 超分辨率模块</h5> <ul> <li><strong>技术描述</strong>:混元3D-1.0 使用轻量级超分辨率模块,在不显著增加内存和计算成本的前提下,提高三平面特征的分辨率。</li> <li><strong>技术优势</strong>:高分辨率的三平面特征能够捕捉到更多的3D细节,提升生成模型的清晰度和细腻度。该模块可以有效减少低分辨率生成中的伪影问题,适用于需要高质量3D模型的场景。</li> </ul> <h5>6. 显式3D表示与网格转换</h5> <ul> <li><strong>技术描述</strong>:在3D重建中,混元3D-1.0 使用签名距离函数(SDF)来表示3D形状,并通过 Marching Cubes 算法将其转换为显式3D网格。</li> <li><strong>技术优势</strong>:显式网格输出便于用户在其他3D软件中进行进一步编辑和应用,比如在游戏和影视中直接使用生成的3D模型。这种方法让生成的3D模型更具实用性,便于后续加工和整合。</li> </ul> </li> </ol> <h3>模型优化与性能</h3> <ul> <li><strong>参数规模</strong>:标准版本的参数量比 lite 版本多 3 倍,能够在较高的细节层次上生成 3D 内容,适用于对质量要求较高的应用。</li> <li><strong>生成速度</strong>:在 NVIDIA A100 GPU 上,lite 版本生成 3D 网格大约需要 10 秒,标准版本约 25 秒。通过这一优化,Hunyuan3D-1.0 平衡了速度与生成质量,在 3D 生成任务中表现出色。</li> <li><strong>可配置性</strong>:用户可以通过设置随机种子、采样步数、面片数量等参数来控制生成过程的输出,进一步提升模型的灵活性和应用范围。</li> </ul> <img class="aligncenter size-full wp-image-15270" src="https://img.xiaohu.ai/2024/11/radar-1.png" alt="" width="583" height="510" /> <img class="aligncenter size-full wp-image-15269" src="https://img.xiaohu.ai/2024/11/runtime-1.png" alt="" width="583" height="446" /> 官网:<a href="https://3d.hunyuan.tencent.com/" target="_blank" rel="noopener">https://3d.hunyuan.tencent.com/</a> GitHub:<a href="https://github.com/Tencent/Hunyuan3D-1" target="_blank" rel="noopener">https://github.com/Tencent/Hunyuan3D-1</a> 论文:<a href="https://3d.hunyuan.tencent.com/hunyuan3d.pdf" target="_blank" rel="noopener">https://3d.hunyuan.tencent.com/hunyuan3d.pdf</a> 模型:<a href="https://huggingface.co/tencent/Hunyuan3D-1" target="_blank" rel="noopener">https://huggingface.co/tencent/Hunyuan3D-1</a>