Kyutai 发布全新的开源 AI 语音助手 Moshi 平替 OpenAI 的GPT 4o

Kyutai 研究实验室今天在巴黎发布了 Moshi AI语音助手,一个能与人类进行自然对话的AI语音助手,可以匹敌OpenAI 的GPT 4o的语音能力。该语音助手由8人团队经过6个月的时间开发,具备独特情感和AI互动能力。

Kyutai将公开Moshi的代码和模型权重,使研究人员和开发人员能够自由使用、改进和扩展这项技术。

Moshi 的功能特点
  1. 语音交互能力
    • 自然对话:Moshi能够进行自然、流畅且富有表现力的语音对话,模拟人类的语音交流方式。
    • 情感表达:其文本转语音(Text-to-Speech, TTS)能力在情感表达方面非常出色,能够呈现出丰富的情绪变化。
  2. 多功能应用
    • 教练和伴侣:Moshi可以用作个人教练或伴侣,提供指导、支持和互动,帮助用户在不同情境下获得个性化建议和陪伴。
    • 角色扮演:具备角色扮演的能力,能够在互动过程中展现出极强的创造力和灵活性,适用于游戏、教育等场景。
  3. 实时互动
    • 即时响应:在演示和互动过程中,Moshi能够快速响应用户的语音指令和提问,提供流畅的互动体验。
  4. 高效多模态处理
    • 多模态学习和推理:Moshi具备处理和理解多种类型内容(如文本、声音、图像等)的能力,能够在不同内容之间进行有效的学习和推理。
  5. 技术开放性
    • 代码和模型公开:Kyutai将公开Moshi的代码和模型权重,使研究人员和开发人员能够自由使用、改进和扩展这项技术。
    • 本地运行:Moshi可以本地安装和运行,确保在无网络环境下的安全性和稳定性。
演示:Moshi模拟区太空探险故事互动…

在线申请测试:https://www.moshi.chat/

关于Kyutai

Kyutai是一个致力于AI开放研究的非营利实验室,由Iliad集团、CMA CGM和Schmidt Sciences于2023年11月成立。初创团队由六名顶级科学家组成,他们都曾在美国的大型科技实验室工作。Kyutai继续招聘顶级人才,还为研究硕士学位学生提供实习机会。现在该团队已有12名成员,并将在年底启动首批博士论文研究。研究探索新的一般用途模型,具备高能力。实验室目前特别研究多模态模型,即模型能够利用不同类型的内容(文本、声音、图像等)进行学习和推理。所有开发的模型、软件和实现其创建的技术知识都将免费分享。为开展工作和训练模型,Kyutai特别依赖Iliad集团子公司Scaleway提供的Nabu 23超算节点。

退出移动版