Google 宣布 Gemini 1.5 Pro 开放 API 新增对原生语音理解能力

Google 宣布 Gemini 1.5 Pro 开放API 现已在180多个国家提供 新增对原生音频(语音)理解能力、文件API、系统指令、JSON模式等功能 现在Gemini模型能够直接处理音频输入,而不需要将音频先转换为文本。

新的模态

应用潜力

  1. 多模态理解:Gemini 1.5 Pro能够综合视频中的视觉信息和音频信息,进行更全面的内容理解。例如,它可以通过分析视频帧中的场景和物体,同时听取视频中的对话或声音,来更准确地识别和解释视频内容。

  2. 内容索引和搜索:通过对视频图像和音频的深入理解,Gemini 1.5 Pro可以帮助创建更详细的内容索引,使用户能够基于视频内容的视觉和听觉信息进行搜索。

  3. 增强的交互体验:利用对视频的综合理解,可以开发更丰富的交互式应用,比如自动生成视频摘要、基于内容的推荐系统,或者创建互动式学习和娱乐体验。

  4. 视频内容分析:Gemini 1.5 Pro可以用于视频监控、内容审查、情感分析等场景,通过同时理解视频和音频内容,AI可以自动识别视频中的关键事件、情感倾向或者特定的内容标签。

  5. 创意内容生成:对视频图像和音频的综合理解也使得Gemini 1.5 Pro能够在内容创作领域发挥作用,如自动生成视频字幕、配音或者根据给定的脚本制作动画视频。

Gemini API 改进

新的嵌入模型

推出了性能更优的下一代文本嵌入模型 text-embedding-004(在 Vertex AI 中为 text-embedding-preview-0409),在 MTEB 基准测试中展现出更强的检索性能,超过了所有现有的具有可比维度的模型。

文件API

使用文件API上传文件

支持的文件格式

详细信息请访问:Google 官方网站

音频理解能力详见:GitHub – google-gemini/cookbook

退出移动版