Genmo 推出目前全球最大的开源视频生成模型 Mochi 1 具备100亿参数

by 小互
7小时 ago

Genmo 推出最新开源视频生成模型 Mochi 1。

Mochi 1 采用了Asymmetric Diffusion Transformer（AsymmDiT）架构，是迄今为止最大的开源视频生成模型，具备100亿参数。
该模型可同时处理文本和视频信号，拥有更强的视觉推理能力，同时优化了内存需求。

功能特点：

1. 高保真动作生成

动作流畅、自然：生成的视频帧率达到30帧/秒，持续时间最长可达5.4秒，具备高时间一致性，确保动作连贯且自然。
.
逼真的物理效果：模型在生成流体动态、毛发模拟和人类行为时，遵循物理法则，生成结果更加自然逼真。
.
突破“恐怖谷”问题：人类角色的动作和表情流畅连贯，细节丰富，显著提升了视频的真实感和自然度。

2. 强大的文本提示响应

精确的提示对齐：Mochi 1 能根据用户的文本指令，生成与描述高度一致的场景、角色和动作。
多模态融合：模型在处理视觉和文本提示时使用多模态自注意力机制，实现文本和视频的协同处理，使得生成结果符合用户预期。

衡量生成的视频遵循所提供的文本指令的准确程度，确保高度保真用户意图

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

Login if you have purchased

加入会员

加入会员查看更多会员内容和教程。
超过1000+的会员内容，每天更新。

开通会员

Categories: AI 项目, XiaoHu.AI 学院

退出移动版