Play AI推出了<strong>PlayDialog beta,</strong>专门用于创建更加自然、富有表现力和情感的对话式语音输出。 它的目标是使与人工智能的对话更加流畅和人性化,特别是在复杂、富有情感的互动场景中。 PlayDialog 的技术突破不仅在于它的 <strong>庞大训练数据和模型体积</strong>,还包括其 <strong>上下文理解</strong>、<strong>情感表达</strong> 和 <strong>语音生成质量</strong> 等方面的提升。通过自适应语音上下文化处理器(ASC),PlayDialog 能够生成更加自然、流畅、富有情感的语音,显著优于市场上现有的竞争模型。 [video width="1920" height="1080" mp4="https://img.xiaohu.ai/2024/11/11月13日-3-1.mp4"][/video] 在多个对比测试中,PlayDialog 在 <strong>表现力</strong>(expressiveness)方面超越了市场上的领先竞争模型,且其语音生成的 <strong>自然度</strong> 和 <strong>情感表达</strong> 都有明显优势。尤其是在进行盲测时,PlayDialog 的表现力评分是竞品的 <strong>2倍</strong>,它能提供更加细腻、情感丰富和人性化的语音输出。 基于PlayDialog,他们开发了一个新的工具:PlayNote ,允许用户从文本、PDF、视频和其他媒体类型创建语音内容,如播客、简报,甚至儿童故事。 <h3><img class="aligncenter size-full wp-image-15471" src="https://img.xiaohu.ai/2024/11/GcIX6UHXUAA7-E7.jpeg" alt="" width="2068" height="1456" /></h3> <h3><strong>PlayDialog beta的主要功能:</strong></h3> <ol> <li><strong>类人语音</strong>: PlayDialog beta能够生成非常自然的语音,接近真实人类的语调和语速。它通过对数亿对话的训练,使得生成的语音在表达力和自然度上接近人类对话。在盲测中,PlayDialog beta在市场上领先的语音模型中脱颖而出,得分比率达到2:1。</li> <li><strong>上下文感知</strong>: PlayDialog beta的独特之处在于,它不仅仅是生成每句话的语音,而是能够理解整个对话的上下文。它利用一种名为“自适应语音上下文化器”(ASC)的架构,将整个对话历史作为上下文来调整语音的节奏、语气和情感。这使得每个回答都能更好地融入到整个对话中,反映出对话的流动性和情感变化。</li> <li><strong>情感和语气控制</strong>: 能够在对话过程中灵活调整语音的情感和语气。它可以根据对话的内容和场景(如热烈讨论或敏感话题)自动调节语音的表现,使其更加贴近真实的情感交流。</li> <li><strong>流畅的语音输出</strong>: 通过精细控制的语音生成技术,能够生成非常流畅和富有表现力的语音,适用于各种应用场景,比如合成播客、叙事、语音配音等。</li> <li><strong>支持大规模应用</strong>: PlayDialog beta可以与大语言模型(LLMs)结合使用,通过WebSocket进行快速响应,使其可以应用于需要实时反馈的业务场景中,如客服互动、语音助手等。</li> </ol> <h3>技术特点</h3> PlayDialog 采用了创新的 <strong>自适应语音上下文化处理器(ASC)</strong>,这是一种新的架构,它能够理解整个对话的上下文,而不仅仅是单一的句子或发言者,进而动态地理解和生成基于整个对话历史的语音。这样,模型能够动态地调整每个响应的语调、语速、情感和语音节奏,从而生成更自然和富有情感的语音。这使得它能够适应整个对话的流畅性和情感起伏,使每个句子更符合对话的语境。 这使得 PlayDialog 在以下方面有了显著提升: <ul> <li><strong>情感与语气的精确控制</strong>:通过 ASC,PlayDialog 可以根据对话上下文精确地控制语音的情感和语气。例如,在处理带有强烈情感色彩的对话时(如愤怒或兴奋),它可以在语音的高低起伏、语速等方面进行调整,以准确反映对话的情感状态。</li> <li><strong>多轮对话理解</strong>:与以前的语音模型不同,PlayDialog 能够处理 <strong>多轮对话</strong>,理解不同回合之间的联系,并基于整个对话的上下文生成更贴合实际的语音内容。每个回合的语音输出不仅仅基于当前一句话,而是综合考虑了之前的对话和情感脉络。</li> </ul> [video width="640" height="360" mp4="https://img.xiaohu.ai/2024/11/twittervid.com_play_ht_16657b.mp4" loop="true" autoplay="true" preload="auto"][/video] <h5><strong>真实世界的对话训练</strong></h5> PlayDialog beta 是在 <strong>数亿个对话</strong> 的基础上训练的,涵盖了大量现实世界的对话示例。这些对话包括不同语气、情感以及交流环境,确保生成的语音在多个情境下都能表现得自然且流畅。 <h5><strong>情感和语气的精确控制</strong></h5> 由于模型在大量真实世界对话数据上进行训练,它能够更精确地模仿人类的语音特征,包括 <strong>语调</strong>(intonation)、<strong>语速</strong>(pacing)和 <strong>情感</strong>(emotion)。这种能力使得 PlayDialog 在多个方面超过了传统语音模型: <ul> <li><strong>语音流畅性和情感表达</strong>:PlayDialog 不仅仅是生成语音,还能捕捉到对话中的情感和语气变化。例如,在激烈讨论时,语音会更加富有激情,而在谈论敏感话题时,语气则会更加温和和同情。这使得 PlayDialog 生成的语音更加像真人对话。</li> <li><strong>对话历史的理解</strong>:PlayDialog 利用 <strong>自适应语音上下文化处理器</strong>(Adaptive Speech Contextualizer,ASC)技术,能够理解和利用对话的整个上下文,而不仅仅是当前的一句话或当前的发言者。这意味着每个回应不仅是单独的输出,而是结合对话的背景,能够自然地过渡和衔接前后语句,体现出更自然的对话流。</li> </ul> PlayDialog 对 <strong>语调</strong>(intonation)、<strong>语速</strong>(pacing)、<strong>情感</strong>(emotion)和 <strong>语音节奏</strong>(prosody)等要素进行了精确控制。这使得 PlayDialog 能够生成类似于真人的语音,表达出细腻的情感和语气,例如在充满激情的讨论中或在处理敏感话题时展现同理心。 <h5><strong>语音流媒体支持</strong></h5> PlayDialog 支持 <strong>WebSocket 流媒体</strong>,可以从大规模语言模型(LLMs)中进行实时流式处理。这使得它在应用中能够提供快速响应,尤其是在需要快速生成语音的应用场景中(例如实时对话系统、虚拟助手等)。 <h5><strong>API 访问与集成</strong></h5> PlayDialog 以及 PlayNote(一个用于生成语音内容的工具)都可以通过 <strong>API</strong> 进行访问。开发者可以利用这些 API 实现大规模的自动化语音内容生成,无需手动干预。这使得 PlayDialog 成为构建语音驱动应用的理想选择,支持从文档、文本、视频等多种媒体中自动生成语音内容。 <h5><strong>多语种支持</strong></h5> 尽管 PlayDialog 主要为英语优化,但它也兼容多种语言,支持超过 <strong>30 种语言</strong>,确保能够服务全球范围的用户和应用场景。 <h5><strong>PlayDialog beta的应用场景:</strong></h5> <ul> <li><strong>语音配音与播客</strong>:可以生成自然流畅的播客、叙事内容,或为各种媒体内容(如视频、书籍)进行配音。[video width="1280" height="720" mp4="https://img.xiaohu.ai/2024/11/11月13日-5-1.mp4"][/video]</li> <li><strong>客户服务与语音助手</strong>:为企业提供更加个性化、富有情感的客户服务体验,可以用于客户支持、语音交互等场景。[video width="1280" height="720" mp4="https://img.xiaohu.ai/2024/11/11月13日-4-1.mp4"][/video]</li> <li><strong>虚拟助手与AI交互</strong>:使得AI助手在与用户对话时更加自然、个性化,能够根据对话上下文和情感变化做出回应。[video width="1280" height="720" mp4="https://img.xiaohu.ai/2024/11/11月13日-6-1.mp4"][/video]</li> </ul> 在线体验:<a href="https://play.ai/playnote" target="_blank" rel="noopener">https://play.ai/playnote</a> <a class="framer-text framer-styles-preset-aexbeb" href="https://docs.play.ai/tts-api-reference/endpoints/v1/tts/stream/post-playdialog#text-to-speech-real-time-http-streaming-playdialog" target="_blank" rel="noopener" data-immersive-translate-walked="06251616-f938-4a97-a420-fb0ef63d3b5e">PlayDialog </a>和 <a class="framer-text framer-styles-preset-aexbeb" href="https://docs.play.ai/playnote-api-reference/endpoints/v1/playnotes/post" target="_blank" rel="noopener" data-immersive-translate-walked="06251616-f938-4a97-a420-fb0ef63d3b5e">PlayNote</a>现已通过 Play.ai 上的 API 提供。还有 <a class="framer-text framer-styles-preset-aexbeb" href="https://docs.play.ai/documentation/guides/create-a-multi-turn-scripted-conversation-with-tts-api" target="_blank" rel="noopener" data-immersive-translate-walked="06251616-f938-4a97-a420-fb0ef63d3b5e">有关使用 TTS 创建多轮脚本对话 </a>的开发人员指南。以及<a class="framer-text framer-styles-preset-aexbeb" href="https://docs.play.ai/documentation/guides/generate-conversation-from-PDF-with-playnote-api" target="_blank" rel="noopener" data-immersive-translate-walked="06251616-f938-4a97-a420-fb0ef63d3b5e">使用 PlayNote 从 PDF 生成对话 </a>的教程