<strong>Project Astra</strong> 是Google DeepMind的一个前瞻性项目,旨在开发未来的AI助手,使其在日常生活中更加有用。 Project Astra 能理解用户所处的环境并自然对话的 AI 助手。 <ul> <li>Astra 能够处理多种类型的信息,并记住它看到和听到的内容,以理解上下文并采取行动。</li> <li>能够处理多种形式的信息,包括文字、图像、视频和音频。</li> <li>这种能力使Astra能够综合利用视觉和听觉信息,提供更全面和准确的反馈。</li> </ul> [video width="720" height="800" mp4="https://img.xiaohu.ai/2024/05/X2Twitter.com_1790582870995763200800p.mp4"][/video] <strong>Project Astra 的主要功能</strong> <ol> <li><strong>多模态信息处理</strong>:<strong style="font-family: -apple-system, BlinkMacSystemFont, 'Segoe UI', Roboto, Oxygen-Sans, Ubuntu, Cantarell, 'Helvetica Neue', sans-serif;">处理多种类型的信息</strong><span style="font-family: -apple-system, BlinkMacSystemFont, 'Segoe UI', Roboto, Oxygen-Sans, Ubuntu, Cantarell, 'Helvetica Neue', sans-serif;">:Astra 能够同时处理视觉、听觉等多种信息来源。例如,它可以通过摄像头看到图像,通过麦克风听到声音,并将这些信息结合起来理解环境。</span></li> <li><strong>自然对话能力</strong>: <ul> <li><strong>上下文理解</strong>:Astra 能够理解对话的上下文,并在不同的对话场景中提供适当的回应。</li> <li><strong>语音响应</strong>:利用先进的语音模型,Astra 可以用自然和多样化的语调进行对话,使交流更加生动和人性化。</li> </ul> </li> <li><strong>个性化和可教</strong>: <ul> <li><strong>个性化调整</strong>:Astra 可以根据用户的习惯和偏好进行调整,提供定制化的服务。</li> <li><strong>用户教导</strong>:用户可以通过与 Astra 的对话教导它新的任务和指令,使其更好地满足个性化需求。</li> </ul> </li> <li><strong>主动性</strong>: <ul> <li><strong>主动提供帮助</strong>:Astra 不仅能被动响应用户的请求,还能根据环境和上下文主动提供建议和帮助。</li> <li><strong>情境感知</strong>:Astra 能够感知和记住它所看到和听到的内容,以便在合适的时机采取行动。</li> </ul> </li> <li><strong>无缝体验</strong>: <ul> <li><strong>实时响应</strong>:Astra 能够快速理解和回应用户的请求,确保对话过程中没有明显的延迟。</li> <li><strong>设备兼容</strong>:目前展示了在 Google Pixel 手机和原型眼镜设备上运行的功能,未来有望集成到更多的设备中。</li> </ul> </li> </ol> <h3>技术方法</h3> Astra 基于Gemini模型,通过不断编码视频帧来更快地处理信息的代理,然后将视频和语音输入合并到一个事件时间线中,并将其缓存以便高效地回忆。 Google还增强了其声音表现,拓宽了音域和语调,让AI更好地理解你所处的情境,可以在对话中迅速回应,使互动的节奏和质量感觉更加自然。 <img class="aligncenter size-full wp-image-8024" src="https://img.xiaohu.ai/2024/05/unnamed.gif" alt="" width="552" height="310" /> <p style="text-align: center;">Continuously encoding video frames<span class="notranslate immersive-translate-target-wrapper" lang="zh-CN" data-immersive-translate-translation-element-mark="1"> <span class="notranslate immersive-translate-target-translation-theme-none immersive-translate-target-translation-block-wrapper-theme-none immersive-translate-target-translation-block-wrapper" data-immersive-translate-translation-element-mark="1"><span class="notranslate immersive-translate-target-inner immersive-translate-target-translation-theme-none-inner" data-immersive-translate-translation-element-mark="1">连续编码视频帧</span></span></span></p> <img class="aligncenter size-large wp-image-8024" src="https://img.xiaohu.ai/2024/05/unnamed.gif" alt="" width="552" height="310" /> <p style="text-align: center;">Combining the video and speech input into a timeline of events<span class="notranslate immersive-translate-target-wrapper" lang="zh-CN" data-immersive-translate-translation-element-mark="1"> <span class="notranslate immersive-translate-target-translation-theme-none immersive-translate-target-translation-block-wrapper-theme-none immersive-translate-target-translation-block-wrapper" data-immersive-translate-translation-element-mark="1"><span class="notranslate immersive-translate-target-inner immersive-translate-target-translation-theme-none-inner" data-immersive-translate-translation-element-mark="1">将视频和语音输入合并为事件时间轴</span></span></span> <img class="aligncenter size-large wp-image-8023" src="https://img.xiaohu.ai/2024/05/unnamed-1.gif" alt="" width="552" height="310" />Combining the video and speech input into a timeline of events<span class="notranslate immersive-translate-target-wrapper" lang="zh-CN" data-immersive-translate-translation-element-mark="1"> <span class="notranslate immersive-translate-target-translation-theme-none immersive-translate-target-translation-block-wrapper-theme-none immersive-translate-target-translation-block-wrapper" data-immersive-translate-translation-element-mark="1"><span class="notranslate immersive-translate-target-inner immersive-translate-target-translation-theme-none-inner" data-immersive-translate-translation-element-mark="1">将视频和语音输入合并为事件时间轴</span></span></span></p> <h3>案例展示</h3> Google DeepMind展示了在手机和原型眼镜设备上运行的多种功能,旨在提供一个专业的 AI 助手。部分功能将于今年晚些时候引入 Google 产品。 [video width="720" height="800" mp4="https://img.xiaohu.ai/2024/05/X2Twitter.com_17905888423131340831350p.mp4"][/video] <p style="text-align: center;">解读文学作品中的图画</p> [video width="1080" height="1350" mp4="https://img.xiaohu.ai/2024/05/X2Twitter.com_17909203761403576321350p.mp4"][/video] <p style="text-align: center;">解释物理图纸</p> [video width="1280" height="720" mp4="https://img.xiaohu.ai/2024/05/5月16日-6.mp4"][/video] <p style="text-align: center;">记忆物体序列</p> [video width="1280" height="720" mp4="https://img.xiaohu.ai/2024/05/5月16日-41.mp4"][/video] <p style="text-align: center;">解释赛车部件</p> [video width="1280" height="720" mp4="https://img.xiaohu.ai/2024/05/5月16日-5.mp4"][/video] <p style="text-align: center;">识别地标图画</p> [video width="720" height="800" mp4="https://img.xiaohu.ai/2024/05/5月16日-8.mp4"][/video] <p style="text-align: center;">实时教学演示</p> [video width="720" height="800" mp4="https://img.xiaohu.ai/2024/05/5月16日-9.mp4"][/video] <p style="text-align: center;">记忆能力展示</p> [video width="720" height="800" mp4="https://img.xiaohu.ai/2024/05/X2Twitter.com_17911072840154357771280p.mp4"][/video] <p style="text-align: center;">实时观看直播并进行讲解</p> <strong>Project Astra 官网:</strong><a href="https://deepmind.google/technologies/gemini/project-astra/" target="_blank" rel="noopener">https://deepmind.google/technologies/gemini/project-astra/</a>