谷歌发布 Gemini Live AI 语音助手对标GPT 4o 可模拟真人连续对话

by 小互
4月 ago

谷歌在今天召开的 Pixel 9 系列手机发布会上，发布了其AI语音助手 Gemini Live 。Gemini Live 对标的是 OpenAI ChatGPT 最新上线的 Advanced Voice 模式，可以展开更连贯、更有情感表达力、更逼真的多轮对话。

Gemini Live 支持免提操作，允许一直在后台保持运行，Gemini Live 允许用户与 Gemini 进行类似于与真人的自由流动的对话。用户可以随时在对话中打断 Gemini 的回应，深入探讨特定话题，或是在不丢失上下文的情况下暂停对话，稍后再继续。这种体验使得与 AI 的互动更加直观和灵活，类似于与一位实时助手进行交流。

谷歌演示 Gemini Live 的一个场景，模拟用户和招聘经理（或人工智能，视情况而定）交谈，为用户提供演讲技巧推荐、提供优化建议。

谷歌发言人表示：

Gemini Live 使用的是我们的 Gemini Advanced 模型，我们对其进行了调整，使其更具对话性。当用户与 Live 进行长时间对话时，就会使用该模型的长上下文窗口。

Gemini Live将于今天开始率先面向使用英语的 Gemini Advanced 订阅用户开放。

自由流动的对话：用户可以与 Gemini 进行自然、连续的对话，类似于与真人交流。可以在对话中随时打断、深入某个话题或暂停对话，稍后再继续。
免提操作：Gemini Live 支持免提使用，用户可以在手机锁屏或应用后台运行时继续与 Gemini 交流，类似于电话通话。
多种语音选择：为使对话更加自然，Gemini Live 提供了 10 种新的语音选项，用户可以选择最适合自己的语音风格和语调。
跨平台支持：Gemini Live 首先面向 Android 用户推出，未来几周将扩展到 iOS 平台和更多语言。

Gemini Live 的详细介绍：

1. 自由流动的对话体验

Gemini Live 允许用户与 Gemini 进行类似于与真人的自由流动的对话。用户可以随时在对话中打断 Gemini 的回应，深入探讨特定话题，或是在不丢失上下文的情况下暂停对话，稍后再继续。这种体验使得与 AI 的互动更加直观和灵活，类似于与一位实时助手进行交流。

2. 免提操作

Gemini Live 支持免提操作，这意味着用户可以在手机锁屏或应用后台运行时继续与 Gemini 进行对话。用户可以像在电话中一样，与 Gemini 继续交流，即使在做其他事情时也不会中断。这为在移动场景下使用 Gemini 提供了更大的便利性。

3. 多种语音选择

为了使与 Gemini 的交流更加个性化，Gemini Live 引入了 10 种新的语音选项，用户可以根据自己的喜好选择最适合的语音风格和语调。这不仅提升了使用体验，还让每位用户都能定制自己的 Gemini 助手。

4. 跨平台支持

Gemini Live 首先面向 Android 平台的 Gemini 高级订阅用户推出，未来几周将逐步扩展到 iOS 平台，并支持更多语言。这意味着更广泛的用户群体将能够体验到这一创新功能。

5. 深度集成和扩展

除了核心对话功能外，Gemini Live 还将与多种 Google 应用（如 Keep、Tasks、Utilities 和 YouTube Music）深度集成。这使得 Gemini 可以帮助用户更好地完成日常任务，比如从邮件中提取信息并添加到购物清单，或者创建特定主题的播放列表等。

假设你正在举办一个晚宴：让 Gemini 找出 Jenny 在你的 Gmail 中发给你的千层面食谱，并要求它将配料添加到 Keep 的购物清单中。由于你的客人是大学朋友，问 Gemini “制作一份让我想起 90 年代末的歌曲播放列表。” 不需要太多细节，Gemini 就能理解你的需求并提供帮助。

例如随着日历扩展的即将推出，你将能够拍摄音乐会海报并询问 Gemini 那天你是否有空——甚至可以设置提醒购买票。

此外，随着与 Android 的深度集成，它不仅可以读取屏幕，还可以与您已经使用的许多应用程序互动。

例如，您可以将 Gemini 生成的图像直接拖放到 Gmail 和 Google Messages 等应用中。

Gemini 已经完全集成到 Android 用户体验中，提供了许多仅在 Android 平台上才能实现的上下文感知功能。无论用户在 Android 手机上做什么，Gemini 都能够在需要时提供帮助。用户只需长按电源按钮或说“Hey Google”，Gemini 就会出现，随时准备提供帮助。

例如，当用户使用手机时，可以点击“询问此屏幕”选项，Gemini 将根据屏幕上的内容提供帮助。如果用户在使用 YouTube 时，可以向 Gemini 提出有关正在观看内容的问题。举个例子，假设用户正在计划一次出国旅行，并刚刚观看了一段旅游视频，可以点击“询问此视频”选项，要求 Gemini 列出视频中提到的所有餐厅，并将它们添加到 Google 地图中。这种深度集成让 Gemini 能够在用户的日常使用场景中提供更加智能和贴心的帮助。

Gemini Live 还不具备谷歌在 I / O 大会上展示的功能之一：多模态输入。

谷歌今年 5 月发布了一段预先录制的视频，展示了 Gemini Live 通过手机摄像头捕捉的照片和录像看到用户周围的环境并做出反应，例如说出一辆坏掉的自行车上的零件名称，或者解释电脑屏幕上的部分代码是做什么用的。

谷歌表示，多模态输入将在“今年晚些时候”推出，但拒绝透露具体细节。

官方介绍：https://blog.google/products/gemini/made-by-google-gemini-ai-updates/

Categories: XiaoHu.AI日报

Gemini Live 的详细介绍：

1. 自由流动的对话体验

2. 免提操作

3. 多种语音选择

4. 跨平台支持

5. 深度集成和扩展

Related Content

Livekit推出一个开源的精准语音轮次检测模型 可精准识别用户是否说完话

微软开源了一款金融市场预测工具 MarS 能够实现逼真的市场模拟

MidJourney 推出个性化档案和情绪版新功能 记住你的风格喜好

Google视频和图像生成模型更新 包括Veo 2、Imagen 3和一个新工具Whisk

Google发布 2024年值得关注的Chrome扩展程序

Livekit推出一个开源的精准语音轮次检测模型可精准识别用户是否说完话

MidJourney 推出个性化档案和情绪版新功能记住你的风格喜好

Google视频和图像生成模型更新包括Veo 2、Imagen 3和一个新工具Whisk