<h3>使用 E2F5 实现文本转语音和唇同步视频</h3> <h4>一、环境准备</h4> <ol> <li><strong>硬件与空间</strong>: <ul> <li>确保计算机上有 <strong>15GB 的可用磁盘空间</strong>。</li> <li>本教程中的工具在大多数支持的硬件上运行良好,但更高性能的硬件会显著加快生成速度。</li> </ul> </li> <li><strong>安装 Pinokio 管理工具</strong>: <ul> <li>访问 <a href="https://pinokio.computer" target="_blank" rel="noopener">Pinokio</a> 的官方网站,下载并运行最新的安装程序。</li> <li>安装完成后,Pinokio 会显示已安装的应用列表。</li> <li>在 “Discover” 标签中找到并安装 <strong>E2F5 TTS</strong> 和 <strong>FaceFusion 3</strong> 工具。</li> </ul> </li> </ol> <h4>二、获取参考音频</h4> <ol> <li><strong>选择音频来源</strong>: <ul> <li>E2F5 是零样本(zero-shot)TTS 工具,因此只需 <strong>5-15 秒</strong>的语音片段作为参考,无需额外训练。</li> <li>推荐使用清晰、无背景噪音的播客、电影片段或有声书的录音。</li> </ul> </li> <li><strong>剪辑音频</strong>: <ul> <li>使用 <strong>Audacity</strong> 等音频编辑工具,确保您获得单人清晰语音的片段,长度不超过 15 秒。</li> <li><strong>如何使用 Audacity 剪辑</strong>: <ul> <li>打开音频或视频文件,选择想要的片段(确保只有一个人说话)。</li> <li>如果需要删除其他部分,按 Backspace 删除。</li> <li>最终选择好片段后,导出为 <strong>MP3</strong> 文件,选择“仅导出当前选择”。</li> </ul> </li> <li>注意:E2F5 会自动截断超过 15 秒的音频,因此保持在 15 秒内最佳。</li> </ul> </li> <li><strong>去除背景噪音</strong>(可选): <ul> <li>如果录音中有背景噪音,可以使用 <strong>Ultimate Vocal Remover</strong>(UVR)工具。</li> <li>该工具可以通过移除歌曲中的伴奏来清除背景噪音,使音频更加清晰。</li> </ul> </li> </ol> [video width="1920" height="1080" mp4="https://img.xiaohu.ai/2024/11/11月4日-1-1.mp4"][/video] <h4>三、安装和设置 E2F5 TTS</h4> <ol> <li><strong>在 Pinokio 中安装 E2F5</strong>: <ul> <li>打开 Pinokio,进入“Discover”标签,找到 <strong>E2F5 TTS</strong> 工具并安装。</li> <li>安装完成后,您可以直接在 Pinokio 界面中运行该工具,或选择在 Web 浏览器中运行。</li> </ul> </li> <li><strong>上传参考音频</strong>: <ul> <li>打开 E2F5 界面后,选择 <strong>“上传参考音频”</strong>(即您之前剪辑的 5-15 秒音频文件)。</li> <li>输入文本框中填写您想生成的文本内容。</li> </ul> </li> <li><strong>点击“合成”按钮</strong>: <ul> <li>生成的语音将根据参考音频的音色和语调进行合成。</li> <li>生成过程可以在 Pinokio 的终端窗口中查看详细进度。</li> </ul> </li> <li><strong>保存音频</strong>: <ul> <li>合成完成后,您可以在界面上下载音频文件。如果忘记保存,可以在 E2F5 的缓存文件夹中找到生成的音频文件。</li> </ul> </li> </ol> <h4>四、调整生成效果</h4> <ol> <li><strong>重新生成音频</strong>: <ul> <li>如果对初次生成结果不满意,可以点击重新生成。每次生成都会使用不同的种子,从而生成略有不同的音频。</li> </ul> </li> <li><strong>调整生成文本</strong>: <ul> <li>通过修改或重写生成的文本内容,您可以细化结果。例如,有时可以通过故意拼错单词或改变句子的结构来改善生成效果。</li> </ul> </li> <li><strong>调整生成速度</strong>: <ul> <li>E2F5 提供速度调整选项,建议尝试 0.8 或 0.9 的速度,这样生成的语音会更加自然。</li> <li>过大幅度调整速度可能会导致语音失真,因此请尽量在推荐范围内调整。</li> </ul> </li> </ol> <h4>五、对话音频生成(可选)</h4> <ol> <li><strong>设置对话模式</strong>: <ul> <li>如果需要生成对话,可以为每个说话者分别设置参考音频。</li> <li>在文本框中输入每段对话文本时,在每段文本前加上说话者的名字。</li> </ul> </li> <li><strong>生成对话音频</strong>: <ul> <li>生成的对话会整合成一个完整的音频文件,适合用于播客或模拟对话的场景。</li> </ul> </li> </ol> <h4>六、多种情绪模式生成(可选)</h4> <ol> <li><strong>情绪标注</strong>: <ul> <li>您可以为文本加上情绪标记(如“[愤怒]”或“[高兴]”),然后生成具有不同情绪的音频。</li> <li>例如,可以设置一个参考音频为常规情绪,另一个为愤怒情绪。</li> </ul> </li> <li><strong>添加多个情绪音频</strong>: <ul> <li>在界面中上传对应情绪的参考音频,并为每种情绪命名。使用文本前的标签触发不同的情绪音频生成。</li> </ul> </li> </ol> <h4>七、使用 FaceFusion 3 进行唇同步视频生成</h4> <ol> <li><strong>安装 FaceFusion 3</strong>: <ul> <li>在 Pinokio 中安装 <strong>FaceFusion 3</strong> 工具,安装步骤与 E2F5 相同。</li> </ul> </li> <li><strong>设置唇同步参数</strong>: <ul> <li>启用唇同步功能,关闭换脸功能(如不需要换脸)。</li> <li>可选:启用面部增强功能,但这会使处理时间增加约一倍。</li> </ul> </li> <li><strong>选择音频和视频</strong>: <ul> <li>选择生成的 E2F5 音频作为源文件,再选择要进行唇同步的视频作为目标文件。</li> <li>开始处理并监控进度,完成后即可生成唇同步视频。</li> </ul> </li> </ol> <h4>八、优化和导出</h4> <ol> <li><strong>缓存文件夹保存</strong>: <ul> <li>所有生成的音频和视频文件都会自动保存到缓存文件夹中,以便随时访问。</li> </ul> </li> <li><strong>调整和修复生成效果</strong>: <ul> <li>如果对生成效果不满意,可以多次尝试不同的输入文件或调整生成文本的结构。</li> <li>对于语音生成的微小错误,可以通过音频编辑工具手动进行微调。</li> </ul> </li> <li><strong>导出最终作品</strong>: <ul> <li>完成所有生成后,将音频和视频导出,即可用于您的项目需求,如播客、虚拟对话或带有唇同步的虚拟演示。</li> </ul> </li> </ol> <strong>工具下载:</strong> 下载终极声音去除器 <span class="yt-core-attributed-string--link-inherit-color" dir="auto" data-immersive-translate-walked="50f965be-c92c-4d06-ad1e-3bdff7e95cce"><a class="yt-core-attributed-string__link yt-core-attributed-string__link--call-to-action-color" tabindex="0" href="https://www.youtube.com/redirect?event=video_description&redir_token=QUFFLUhqbkhpRk15RjE4RTRveHUzOVVOWTBtMUFxQWo5Z3xBQ3Jtc0tsOGU2eVFLSTVvMUVwUGlnTUowVVVIdk45YmN1Z1pnbUVxNUR5UGwybm9odU9nNlBjU3JzY0UtVkR3Skh0RVg0ZEQtdUxCaFRjWFV4NVY2dlpubHhLVjZvM3BPcDZaaHo3VnZQYVVRSUtGc1REbmUxMA&q=https%3A%2F%2Fultimatevocalremover.com%2F&v=-brbxJ43F1c" rel="nofollow" data-immersive-translate-walked="50f965be-c92c-4d06-ad1e-3bdff7e95cce">https://ultimatevocalremover.com</a></span> <span class="yt-core-attributed-string--link-inherit-color" dir="auto" data-immersive-translate-walked="50f965be-c92c-4d06-ad1e-3bdff7e95cce">下载 Audacity(无需 Muse Hub 即可下载) <a class="yt-core-attributed-string__link yt-core-attributed-string__link--call-to-action-color" tabindex="0" href="https://www.youtube.com/redirect?event=video_description&redir_token=QUFFLUhqbHZCRW5Hbjh1aFc0ZV85YXlwd3lpLTFIZnpRd3xBQ3Jtc0ttdl9RODFNQWxSOWxaTkhxRm1uWEtYNXFyY0FqaFFvdzhhQmJPc0pBMnU2cFlQNG4tUE1lUjcyX0ZXUHBLT05ld1ZFSzN1eGpZWm1KQ1Y3aVRwWVRmR0RTcU55T3VyenVmVWstUDh6YTBGVEJwbHdCNA&q=https%3A%2F%2Fwww.audacityteam.org%2F&v=-brbxJ43F1c" rel="nofollow" data-immersive-translate-walked="50f965be-c92c-4d06-ad1e-3bdff7e95cce">https://www.audacityteam.org</a> </span> <span class="yt-core-attributed-string--link-inherit-color" dir="auto" data-immersive-translate-walked="50f965be-c92c-4d06-ad1e-3bdff7e95cce">下载Capcut <a class="yt-core-attributed-string__link yt-core-attributed-string__link--call-to-action-color" tabindex="0" href="https://www.youtube.com/redirect?event=video_description&redir_token=QUFFLUhqbnlTTHB6cW9oZ3lYMGVXMHpNRWt2M0lDYU9QZ3xBQ3Jtc0tsSHdMc09pdElBaW03dlN4am5yZVdtUHFlTmg5UUdYajZ6UmNVNkJUZXo0QlU5ejBQY1NQSEJEb2tCOWRyRUNkSmZBUERodzN1c3ZuS19YN3RjcW5JU2RNTWhXRkVFUlc1bGZUcWRuWE14OHZzQXE2MA&q=https%3A%2F%2Fwww.capcut.com%2F&v=-brbxJ43F1c" rel="nofollow" data-immersive-translate-walked="50f965be-c92c-4d06-ad1e-3bdff7e95cce">https://www.capcut.com</a></span>