INFP：基于音频驱动的双人对话中的互动头像生成能自动区分谁在说话，谁在听

INFP 由字节跳动开发的一种音频驱动的交互式头部生成框架，主要应用于双人对话场景。意为“在双人对话中基于音频驱动的互动式头像生成”。

它能通过语音输入生成动态头像动画，包括嘴唇同步、面部表情和头部动作。这些生成的头像能自然地模拟对话双方的互动状态，而且能自动切换“说话者”和“倾听者”的角色，也就是两个人对话时，它能自动区分谁在说话，谁在听。

INFP 旨在实现：

动态角色切换
- 在双人对话中，根据音频自动区分“说话者”和“倾听者”。
- 生成适合角色的头像动画：
  - 说话者：嘴唇同步语音内容，同时展现自然的头部和表情动作。
  - 倾听者：生成自然的面部反应（如点头、微笑、疑惑）和倾听姿态。
语音驱动的嘴唇同步
- 根据语音生成精确的嘴唇运动，与语音内容高度一致。
- 支持多语言和多种语音节奏。
头部和表情动画生成
- 根据语音的节奏和语调生成逼真的头部动作（如点头、转头）和表情变化（如微笑、皱眉）。
- 动作流畅，表情自然，增强互动体验。
  
  可以根据不同的音频输入为相同的参考图像生成不同的表情动作视频
双轨音频支持
- 接收双轨音频输入（两个人对话时，它能自动区分谁在说话，谁在听。）。
- 根据每一方的语音特点独立生成对应的动画。
支持多种头像输入
- 人类头像：支持从正面、侧面等多角度输入生成动态表现。
- 非人类头像：例如虚拟角色或卡通形象，也可以适配。

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

加入会员查看更多会员内容和教程。
超过1000+的会员内容，每天更新。

开通会员