Hume AI发布了他们的EVI API,这是世界上第一个情感智能的语音AI接口。EVI API可以将情感智能语音体验集成到任何应用程序中,它接受实时音频输入,并返回带有情感表达度量的生成音频和文字转录。
这个API的推出引起了广泛的关注,因为仅通过演示,就已经有约100,000次对话,显示出用户与这种新型AI的深度连接。这些对话的平均长度为10分钟,涉及约300万条用户消息。(此前介绍:Hume AI发布情感感知对话AI:EVI 能理解用户的情感状态和意图 )
1、情感表达的集成
- 情感音调生成: EVI能够分析用户的语音中的语调、节奏和音色,并据此生成具有相应情感色彩的响应。
- 它可以使AI的语音不仅信息传递准确,还能够表达如兴奋、关切或好奇等多种情绪。
2、实时音频处理
- 双向对话支持: EVI通过WebSocket连接实现实时的音频传输和响应,支持流畅的双向对话。用户可以直接与EVI进行语音交互,系统能够即时解析并生成情感化的回复。
- 允许开发者通过WebSocket连接自己的文本生成服务器,自行控制EVI在对话中的所有消息。
3、语音转写与语言建模:
-
- API不仅支持将语音转写成文本,还能进行复杂的语言建模,这有助于理解和生成更准确、更自然的语言。
4、高度可配置性
- 个性化定制: 开发者可以配置EVI的多个方面,包括语音的选择、响应的风格和内容等。通过API或用户界面(UI),可以调整系统提示、使用的大型语言模型(LLM)等,以适应不同的应用场景。
- 多声音选项: EVI提供了不同的声音选项,允许开发者根据目标用户群体的偏好选择合适的声音,包括男声和女声,并计划未来扩展更多声音库。
- 快速高效的语音界面:语音交互的速度比打字快四倍,信息量是打字的两倍,这使得EVI API在需要快速、高效信息交换的应用场景中具有明显优势。
5、端到端语音交互
- 中断性和轮次结束检测:具备识别对话中何时可以中断发言者以及何时轮次结束的能力,能够在适当的时候插话或停止这使得对话流畅自然,提升了用户交互体验。
6、情感同理心大语言模型(eLLM)
- 情绪感知回应: EVI结合了Hume的情绪模型和大语言模型,能够根据用户的情绪表达生成同理心回应,如对挫折感到歉意,对悲伤表达同情等。
- 支持将其他大语言模型的响应注入EVI,如Fireworks Mixtral8x7b、所有OpenAI模型和Anthropic模型,为开发者提供了极大的灵活性。
7、应用场景:
-
- EVI非常适合需要情感交互的应用场景,如客服机器人、虚拟助手和互动游戏等。
- 它可以根据用户的情绪反应灵活调整语调,提供更加人性化的用户体验。
详细:https://www.hume.ai/blog/introducing-hume-evi-api
API申请:https://beta.hume.ai