教程：使用 E2F5工具实现文本转语音和唇同步视频制作

使用 E2F5 实现文本转语音和唇同步视频 一、环境准备 硬件与空间 ： 确保计算机上有 15GB 的可用磁盘空间 。 本教程中的工具在大多数支持的硬件上运行良好，但更高性能的硬件会显著加快生成速度。 安装 Pinokio 管理工具 ： 访问 Pinokio 的官方网站，下载并运行最新的安装程序。 安装完成后，Pinokio 会显示已安装的应用列表。 在 “Discover” 标签中找到并安装 E2F5 TTS 和 FaceFusion 3 工具。 二、获取参考音频 选择音频来源 ： E2F5 是零样本（zero-shot）TTS 工具，因此只需 5-15 秒 的语音片段作为参考，无需额外训练。 推荐使用清晰、无背景噪音的播客、电影片段或有声书的录音。 剪辑音频 ： 使用 Audacity 等音频编辑工具，确保您获得单人清晰语音的片段，长度不超过 15 秒。 如何使用 Audacity 剪辑 ： 打开音频或视频文件，选择想要的片段（确保只有一个人说话）。 如果需要删除其他部分，按 Backspace 删除。 最终选择好片段后，导出为 MP3 文件，选择“仅导出当前选择”。 注意：E2F5 会自动截断超过 15 秒的音频，因此保持在 15 秒内最佳。 去除背景噪音 （可选）： 如果录音中有背景噪音，可以使用 Ultimate Vocal Remover （UVR）工具。 该工具可以通过移除歌曲中的伴奏来清除背景噪音，使音频更加清晰。 [video width="1920" height="1080" mp4="https://img.xiaohu.ai/2024/11/11月4日-1-1.mp4"][/video] 三、安装和设置 E2F5 TTS 在 Pinokio 中安装 E2F5 ： 打开 Pinokio，进入“Discover”标签，找到 E2F5 TTS 工具并安装。 安装完成后，您可以直接在 Pinokio 界面中运行该工具，或选择在 Web 浏览器中运行。 上传参考音频 ： 打开 E2F5 界面后，选择 “上传参考音频” （即您之前剪辑的 5-15 秒音频文件）。 输入文本框中填写您想生成的文本内容。 点击“合成”按钮 ： 生成的语音将根据参考音频的音色和语调进行合成。 生成过程可以在 Pinokio 的终端窗口中查看详细进度。 保存音频 ： 合成完成后，您可以在界面上下载音频文件。如果忘记保存，可以在 E2F5 的缓存文件夹中找到生成的音频文件。 四、调整生成效果 重新生成音频 ： 如果对初次生成结果不满意，可以点击重新生成。每次生成都会使用不同的种子，从而生成略有不同的音频。 调整生成文本 ： 通过修改或重写生成的文本内容，您可以细化结果。例如，有时可以通过故意拼错单词或改变句子的结构来改善生成效果。 调整生成速度 ： E2F5 提供速度调整选项，建议尝试 0.8 或 0.9 的速度，这样生成的语音会更加自然。 过大幅度调整速度可能会导致语音失真，因此请尽量在推荐范围内调整。 五、对话音频生成（可选） 设置对话模式 ： 如果需要生成对话，可以为每个说话者分别设置参考音频。 在文本框中输入每段对话文本时，在每段文本前加上说话者的名字。 生成对话音频 ： 生成的对话会整合成一个完整的音频文件，适合用于播客或模拟对话的场景。 六、多种情绪模式生成（可选） 情绪标注 ： 您可以为文本加上情绪标记（如“[愤怒]”或“[高兴]”），然后生成具有不同情绪的音频。 例如，可以设置一个参考音频为常规情绪，另一个为愤怒情绪。 添加多个情绪音频 ： 在界面中上传对应情绪的参考音频，并为每种情绪命名。使用文本前的标签触发不同的情绪音频生成。 七、使用 FaceFusion 3 进行唇同步视频生成 安装 FaceFusion 3 ： 在 Pinokio 中安装 FaceFusion 3 工具，安装步骤与 E2F5 相同。 设置唇同步参数 ： 启用唇同步功能，关闭换脸功能（如不需要换脸）。 可选：启用面部增强功能，但这会使处理时间增加约一倍。 选择音频和视频 ： 选择生成的 E2F5 音频作为源文件，再选择要进行唇同步的视频作为目标文件。 开始处理并监控进度，完成后即可生成唇同步视频。 八、优化和导出 缓存文件夹保存 ： 所有生成的音频和视频文件都会自动保存到缓存文件夹中，以便随时访问。 调整和修复生成效果 ： 如果对生成效果不满意，可以多次尝试不同的输入文件或调整生成文本的结构。 对于语音生成的微小错误，可以通过音频编辑工具手动进行微调。 导出最终作品 ： 完成所有生成后，将音频和视频导出，即可用于您的项目需求，如播客、虚拟对话或带有唇同步的虚拟演示。 工具下载： 下载终极声音去除器 <a class="yt-core-attributed-string__link yt-core-attributed-string__link--call-to-action-color" tabindex="0" href="https://www.youtube.com/redirect?event=video_description&redir_token=QUFFLUhqbkhpRk15RjE4RTRveHUzOVVOWTBtMUFxQWo5Z3xBQ3Jtc0tsOGU2eVFLSTVvMUVwUGlnTUowVVVIdk45YmN1Z1pnbUVxNUR5UGwybm9odU9nNlBjU3JzY0UtVkR3Skh0RVg0ZEQtdUxCaFRjWFV4NVY2dlpubHhLVjZvM3BPcDZaaHo3VnZQYVVRSUtGc1REbmUxMA&q=https%3A%2F%2Fultimatevocalremover.com%2F&v=-brbxJ43F1c" rel="nofollow" data-immersive-translate-walked="50f965be-c92c-4d06-ad1e-3bdff7e95cce">https://ultimatevocalremover.com 下载 Audacity（无需 Muse Hub 即可下载） <a class="yt-core-attributed-string__link yt-core-attributed-string__link--call-to-action-color" tabindex="0" href="https://www.youtube.com/redirect?event=video_description&redir_token=QUFFLUhqbHZCRW5Hbjh1aFc0ZV85YXlwd3lpLTFIZnpRd3xBQ3Jtc0ttdl9RODFNQWxSOWxaTkhxRm1uWEtYNXFyY0FqaFFvdzhhQmJPc0pBMnU2cFlQNG4tUE1lUjcyX0ZXUHBLT05ld1ZFSzN1eGpZWm1KQ1Y3aVRwWVRmR0RTcU55T3VyenVmVWstUDh6YTBGVEJwbHdCNA&q=https%3A%2F%2Fwww.audacityteam.org%2F&v=-brbxJ43F1c" rel="nofollow" data-immersive-translate-walked="50f965be-c92c-4d06-ad1e-3bdff7e95cce">https://www.audacityteam.org 下载Capcut <a class="yt-core-attributed-string__link yt-core-attributed-string__link--call-to-action-color" tabindex="0" href="https://www.youtube.com/redirect?event=video_description&redir_token=QUFFLUhqbnlTTHB6cW9oZ3lYMGVXMHpNRWt2M0lDYU9QZ3xBQ3Jtc0tsSHdMc09pdElBaW03dlN4am5yZVdtUHFlTmg5UUdYajZ6UmNVNkJUZXo0QlU5ejBQY1NQSEJEb2tCOWRyRUNkSmZBUERodzN1c3ZuS19YN3RjcW5JU2RNTWhXRkVFUlc1bGZUcWRuWE14OHZzQXE2MA&q=https%3A%2F%2Fwww.capcut.com%2F&v=-brbxJ43F1c" rel="nofollow" data-immersive-translate-walked="50f965be-c92c-4d06-ad1e-3bdff7e95cce">https://www.capcut.com

Menu

分类目录

教程：使用 E2F5工具实现文本转语音和唇同步视频制作

Related Posts

Livekit推出一个开源的精准语音轮次检测模型可精准识别用户是否说完话

微软开源了一款金融市场预测工具 MarS 能够实现逼真的市场模拟

MidJourney 推出个性化档案和情绪版新功能记住你的风格喜好

Google视频和图像生成模型更新包括Veo 2、Imagen 3和一个新工具Whisk

Google发布 2024年值得关注的Chrome扩展程序

Xai 发布 Grok-2 模型新版本速度提升3倍多语言指令遵循能力更强

Recommendeds

使用Midjourney将角色放到杂志、海报等各种场景里

ElevenLabs 推出 Audio Native 自动将你的内容转换为播客

Gatekeep：将你的问题自动生成包含动画原理的教学讲解视频

OpenAI发布其语音生成模型：Voice Engine 15秒克隆你的声音

Runway Act-One 使用教程：仅通过单个视频和任意角色图像生成生动的表演动画

MultiOn 推出了一种类似Q*的新型自主 AI 代理 Agent Q 可以自我学习进化

SuperCraft：通过无限工作流画布将草图直接转换成真实产品图像并自动生成3D渲染

通义千问发布Qwen1.5-110B 首款超1000亿参数模型

Ilus AI：一款AI插画生成器快速生成墨线画、涂鸦等各种风格的插画

Hugging Face 推出一站式搜索开源成果的平台：Paper Central

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

Menu

分类目录

教程：使用 E2F5工具实现文本转语音和唇同步视频制作

Support authors and subscribe to content

加入会员

Related Posts

Recommendeds

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?