X-Portrait 2：由字节跳动开发可将任意视频角色的表情和动作转移到任意对象的技术

by 小互
2周 ago

上周Runway 推出了一款生成式角色表演工具，可以把视频转换成任意风格虚拟角色动画，并且保持表情语音口型同步。只需要用摄像头录下演员的表演，Act-One 就能把视频转换成虚拟角色的动画，比如演员的眼神、面部表情、动作节奏和说话方式都会被捕捉下来。

本周字节跳动的人找到我，说他们也有一款类似的产品在内测，比Runway 的Act-One 的效果还要好，让我测试看看。

真是不测不知道，一测吓一跳。字节果然是好东西很多，但是都藏起啦了。

这个工具内部目前还没有正式产品名称，内部称为X-Portrait 2。看着名字就知道研究了一段时间了，都2代了。

X-Portrait 2 是一款基于深度学习的高效人像动画生成工具。用户只需提供一张静态的肖像图和一个带有表情和动作的“驱动视频”，X-Portrait 2 就可以将视频中的表情和动作迁移到静态图像上，生成自然流畅、充满表现力的动画。

它不仅可以将视频中人物的动作表情转移到目标图像中，还能捕捉并还原极其细微的面部表情变化，比如嘟嘴、鼓腮、皱眉等，让转移生成的动画不仅流畅，还能传达出丰富的情绪。

不多说，先上几个我测试的案例看看。

X-Portrait 2 可以精确捕捉并传递快速头部运动、甚至可以还原出视频中人物的细微表情变化和情绪转变。让生成的动画显得更加真实生动。

向佐也有了演技

模型适应性极强，能够在不同风格（如真实肖像和卡通图像）之间实现跨风格的表情迁移。

既适用于真人肖像，也适合卡通、漫画角色等虚拟形象

以往这种都需要演员穿戴动作捕捉装备或者通过摄像头动作捕捉技术才能完成，现在只需要简单的图片和视频使用提示词即可控制。

面孔”和“表情”分离：只变表情，不变脸

为了让照片在动的时候不失去原来的样子，X-Portrait 2 采用了“面孔”和“表情”分离的方法。这个方法就像把人的长相和表情分开，只让表情改变而不动原来的五官样貌。

这种分离方法让照片在模仿视频表情时，始终保持自己本来的样子，比如不会因为表情而影响脸型。

精细动作还原：抓住每个细节

X-Portrait 2 对于细小的表情和快速的动作非常敏感。比如，一个快速的转头、嘟嘴或眉毛微微扬起，这些细节都会被模型捕捉并还原出来，生成的视频效果非常细腻。这种精细的动作还原使得它特别适合影视特效或动画制作，能够让生成的角色看起来更真实。

X-Portrait以及最近发布的 Runyway Act-One 等最先进的方法相比，X-Portrait 2能够如实表现快速的头部动作、细微的表情变化以及强烈的个人情感，这些方面对于高质量的内容创作（比如动画和电影制作）至关重要。

技术创新点：

1. 高精度表情编码器：实现细微表情的真实再现

捕捉细微情感变化：X-Portrait 2 的表情编码器经过大规模数据集训练，能够捕捉并还原复杂的面部细节和情感变化。例如，它可以精确再现嘟嘴、鼓腮、皱眉等微小但关键的表情，这使生成的动画不仅仅是机械地模仿表情，而是充满了个性和细腻的情感。
高保真度表情迁移：该编码器在生成过程中保留了原视频的情绪和语气，让生成的表情更自然，能够准确传递情绪强度，为创作者提供了超越传统方法的动画生成体验。

2. 外观与动作的强分离（Appearance and Motion Disentanglement）

分离外观与表情变化：X-Portrait 2 的技术架构将图像的外观与表情动作分离，使得模型仅专注于表情和动作信息的迁移，而不改变静态肖像的外观。这种分离确保了表情生成的独立性和一致性，尤其在处理复杂的动态变化时，能够让表情迁移更加自然。
支持多风格应用：外观与动作分离还意味着模型可以轻松应用于不同风格的图像。无论是现实人像还是卡通角色，X-Portrait 2 都能准确地将表情迁移到目标风格上。这种跨风格能力使得创作者能够将不同风格的图像素材整合到一个项目中，丰富了创作的表现力。

3. 生成式扩散模型的创新应用

多视角训练与扩散生成：使用生成式扩散模型，在多视角数据上进行训练。这种模型能够还原表情在不同视角下的变化，使得动画生成效果更为流畅和真实。通过多视角训练，扩散模型能够确保表情动作在每个角度都自然连贯，避免了传统方法在角度变化时的不协调问题。
去噪机制和一致性优化：扩散模型在生成过程中使用去噪机制，使生成的图像质量更高，减少了在表情和动作变换中产生的噪声。这种去噪处理确保了复杂表情和快速运动的清晰度，使得生成的动画更为平滑、精致。

4. 高度自适应的跨领域表情迁移能力

支持跨领域应用：X-Portrait 2 的跨领域迁移能力使其适用于不同风格和领域的动画需求，能够轻松实现从现实人像到虚拟角色、漫画风格等多种样式的表情迁移。这种跨领域适应性让模型能够在创作中灵活运用，为创作者提供了更加广泛的风格选择。
多种驱动输入兼容性：支持使用多种类型的驱动视频，既可以是电影镜头，也可以是动画或用户录制的视频。这种兼容性不仅提升了工具的适用性，还为创作者在驱动视频选择上提供了更大自由度，能够针对不同需求选择最适合的驱动源。

5. 真实感与动态表现力的提升

真实感表现和细节捕捉：能够细致还原人物的快速头部运动、细微面部变化和情绪特征，提升了生成动画的真实感。相比传统方法，该模型在高动态表现力方面具备明显优势，使得生成的动画更加接近真实影像的效果。
电影级别的动画质量：在生成动态场景时表现出色，能够应用于高质量的电影和动画制作中。无论是细微的情感传递还是剧烈的表情变化，X-Portrait 2 都能够保持连贯的表情流畅度，为内容创作带来了电影级别的动画质量。

项目地址：https://byteaigc.github.io/X-Portrait2/

Categories: XiaoHu.AI日报

面孔”和“表情”分离：只变表情，不变脸

精细动作还原：抓住每个细节

技术创新点：

1. 高精度表情编码器：实现细微表情的真实再现

2. 外观与动作的强分离（Appearance and Motion Disentanglement）

3. 生成式扩散模型的创新应用

4. 高度自适应的跨领域表情迁移能力

5. 真实感与动态表现力的提升

Related Content

Comfyui_Object_Migration：一致性换衣模型和工作流 实物衣服 一键穿上

ElevenLabs 推出构建语言对话AI代理的功能 可使用其语音模型接入AI模型

Stripe 推出 Stripe Agent Toolkit：让 AI 代理能自动进行支付 帮你购物、订机票等

Mistral AI 发布了全新的 Pixtral Large 开源模型 超越 GPT-4o、Gemini-1.5 Pro 和 Claude-3.5 Sonnet

Perplexity 推出全新 AI 驱动购物助手：Shop Like a Pro 支持搜索结果一键下单

Comfyui_Object_Migration：一致性换衣模型和工作流实物衣服一键穿上

ElevenLabs 推出构建语言对话AI代理的功能可使用其语音模型接入AI模型

Stripe 推出 Stripe Agent Toolkit：让 AI 代理能自动进行支付帮你购物、订机票等

Mistral AI 发布了全新的 Pixtral Large 开源模型超越 GPT-4o、Gemini-1.5 Pro 和 Claude-3.5 Sonnet