谷歌发布 Gemini Live AI 语音助手 对标GPT 4o 可模拟真人连续对话

谷歌在今天召开的 Pixel 9 系列手机发布会上,发布了其AI语音助手 Gemini Live 。Gemini Live 对标的是 OpenAI ChatGPT 最新上线的 Advanced Voice 模式,可以展开更连贯、更有情感表达力、更逼真的多轮对话。

Gemini Live 支持免提操作,允许一直在后台保持运行,Gemini Live 允许用户与 Gemini 进行类似于与真人的自由流动的对话。用户可以随时在对话中打断 Gemini 的回应,深入探讨特定话题,或是在不丢失上下文的情况下暂停对话,稍后再继续。这种体验使得与 AI 的互动更加直观和灵活,类似于与一位实时助手进行交流。

谷歌演示 Gemini Live 的一个场景,模拟用户和招聘经理(或人工智能,视情况而定)交谈,为用户提供演讲技巧推荐、提供优化建议。

谷歌发言人表示:

Gemini Live 使用的是我们的 Gemini Advanced 模型,我们对其进行了调整,使其更具对话性。当用户与 Live 进行长时间对话时,就会使用该模型的长上下文窗口。

Gemini Live将于今天开始率先面向使用英语的 Gemini Advanced 订阅用户开放。

Gemini Live 的详细介绍:

1. 自由流动的对话体验

Gemini Live 允许用户与 Gemini 进行类似于与真人的自由流动的对话。用户可以随时在对话中打断 Gemini 的回应,深入探讨特定话题,或是在不丢失上下文的情况下暂停对话,稍后再继续。这种体验使得与 AI 的互动更加直观和灵活,类似于与一位实时助手进行交流。

2. 免提操作

Gemini Live 支持免提操作,这意味着用户可以在手机锁屏或应用后台运行时继续与 Gemini 进行对话。用户可以像在电话中一样,与 Gemini 继续交流,即使在做其他事情时也不会中断。这为在移动场景下使用 Gemini 提供了更大的便利性。

3. 多种语音选择

为了使与 Gemini 的交流更加个性化,Gemini Live 引入了 10 种新的语音选项,用户可以根据自己的喜好选择最适合的语音风格和语调。这不仅提升了使用体验,还让每位用户都能定制自己的 Gemini 助手。

4. 跨平台支持

Gemini Live 首先面向 Android 平台的 Gemini 高级订阅用户推出,未来几周将逐步扩展到 iOS 平台,并支持更多语言。这意味着更广泛的用户群体将能够体验到这一创新功能。

5. 深度集成和扩展

除了核心对话功能外,Gemini Live 还将与多种 Google 应用(如 Keep、Tasks、Utilities 和 YouTube Music)深度集成。这使得 Gemini 可以帮助用户更好地完成日常任务,比如从邮件中提取信息并添加到购物清单,或者创建特定主题的播放列表等。

假设你正在举办一个晚宴:让 Gemini 找出 Jenny 在你的 Gmail 中发给你的千层面食谱,并要求它将配料添加到 Keep 的购物清单中。由于你的客人是大学朋友,问 Gemini “制作一份让我想起 90 年代末的歌曲播放列表。” 不需要太多细节,Gemini 就能理解你的需求并提供帮助。

 

例如随着日历扩展的即将推出,你将能够拍摄音乐会海报并询问 Gemini 那天你是否有空——甚至可以设置提醒购买票。

此外,随着与 Android 的深度集成,它不仅可以读取屏幕,还可以与您已经使用的许多应用程序互动。

例如,您可以将 Gemini 生成的图像直接拖放到 Gmail 和 Google Messages 等应用中。

Gemini 已经完全集成到 Android 用户体验中,提供了许多仅在 Android 平台上才能实现的上下文感知功能。无论用户在 Android 手机上做什么,Gemini 都能够在需要时提供帮助。用户只需长按电源按钮或说“Hey Google”,Gemini 就会出现,随时准备提供帮助。

例如,当用户使用手机时,可以点击“询问此屏幕”选项,Gemini 将根据屏幕上的内容提供帮助。如果用户在使用 YouTube 时,可以向 Gemini 提出有关正在观看内容的问题。举个例子,假设用户正在计划一次出国旅行,并刚刚观看了一段旅游视频,可以点击“询问此视频”选项,要求 Gemini 列出视频中提到的所有餐厅,并将它们添加到 Google 地图中。这种深度集成让 Gemini 能够在用户的日常使用场景中提供更加智能和贴心的帮助。

Gemini Live 还不具备谷歌在 I / O 大会上展示的功能之一:多模态输入。

谷歌今年 5 月发布了一段预先录制的视频,展示了 Gemini Live 通过手机摄像头捕捉的照片和录像看到用户周围的环境并做出反应,例如说出一辆坏掉的自行车上的零件名称,或者解释电脑屏幕上的部分代码是做什么用的。

谷歌表示,多模态输入将在“今年晚些时候”推出,但拒绝透露具体细节。

官方介绍:https://blog.google/products/gemini/made-by-google-gemini-ai-updates/

退出移动版