Google将推出Ask Photos 用户能够通过自然语言搜索本机里照片和视频

Ask Photos 是 Google Photos 即将推出的实验性功能，利用 AI 模型 Gemini，使用户能够通过自然语言问题搜索照片和视频，并辅助完成相关任务。

Ask Photos 允许用户使用自然语言问题来搜索照片和视频。
例如，用户可以询问“去年在哪里露营”或“我的代金券什么时候过期”，Ask Photos 会找到相关的照片和信息。

视频播放器

Media error: Format(s) not supported or source(s) not found

下载文件: https://img.xiaohu.ai/2024/05/5%E6%9C%8816%E6%97%A5-31.mp4

00:00

使用上/下箭头键来增高或降低音量。

Ask Photos 的主要功能：

自然语言搜索：Ask Photos 允许用户使用自然语言问题来搜索照片和视频。无需记住具体的关键词或拍摄日期，用户可以直接询问：“去年我们在哪个国家露营？”或“我的孩子第一次生日是什么时候？”Ask Photos 会根据这些问题找到相关的照片。
上下文理解和细节提取：Gemini AI 模型能够理解照片的上下文和主题，提取其中的细节信息。例如，用户可以问：“我们过去几年的圣诞节装饰是什么样的？”Ask Photos 会分析照片中的背景装饰、场景和其他细节，并提供相关的结果。
任务辅助：Ask Photos 不仅帮助用户搜索照片，还能辅助完成各种任务：
- 创建旅行亮点：用户可以让 Ask Photos 帮助创建旅行照片集锦，只需简单地询问即可得到精选照片和个性化的分享文字。
- 撰写个性化的社交媒体分享内容：Ask Photos 可以根据照片内容生成个性化的描述，方便用户在社交媒体上分享。
多模态能力：Gemini 的多模态能力使其能够处理和理解照片中的复杂信息，包括文字、场景和人物。例如，用户可以询问：“Lena 的生日派对有哪些主题？”Ask Photos 会分析生日蛋糕、装饰和其他背景细节来回答这个问题。
动态调整和学习：Ask Photos 可以根据用户的反馈进行动态调整和学习。如果用户纠正或提供了额外的信息，Ask Photos 会记住这些细节，以便在未来的搜索和任务中提供更准确的结果。

视频播放器

Media error: Format(s) not supported or source(s) not found

下载文件: https://img.xiaohu.ai/2024/05/5%E6%9C%8816%E6%97%A5-3.mp4

00:00

使用上/下箭头键来增高或降低音量。

Ask Photos 的工作原理

Ask Photos 功能背后的工作机制可以分为三个主要步骤：理解问题、生成响应以及确保安全和记忆修正。以下是详细解释：

1. 理解问题

Ask Photos 首先会理解用户的查询，并形成一个找到答案的计划。

解析查询：利用自然语言处理技术，Ask Photos 能够解析用户输入的自然语言问题，识别相关的关键词，如地点、人物和日期，以及自然语言概念，如“主题生日派对”。
形成搜索计划：根据解析结果，Ask Photos 生成一个搜索计划，确定需要查找的具体信息。

2. 生成响应

理解问题后，Ask Photos 通过多步骤生成一个响应：

分析搜索结果：对搜索结果进行分析，确定哪些照片和视频最相关，哪些看起来最符合用户的查询。
多模态能力：利用 Gemini 的多模态能力，Ask Photos 可以理解每张照片中具体发生的情况，甚至可以读取图像中的文字（如果需要）。
构建响应：根据分析结果，Ask Photos 生成一个详细且有用的响应，选择并返回最符合用户需求的照片和视频。

3. 确保安全和记忆修正

在整个过程中，Ask Photos 采取了多层次的措施，确保响应的安全性和适当性，并能记住用户的修正。

安全保障：尽管 Ask Photos 是实验性功能，并不能保证所有响应都是完全正确的，Google 依然采用了多层次的安全措施和 AI 模型，确保响应是安全和合适的。
记忆修正：如果用户纠正了一个答案或提供了额外的信息，Ask Photos 可以记住这些细节，以便在未来的查询中提供更准确的响应。

工作示意图

用户输入问题：
- 用户：去年我在哪里露营？
理解问题：
- 解析查询，识别关键词“去年”和“露营”。
- 形成搜索计划，查找相关照片。
生成响应：
- 分析搜索结果，选择最相关的露营照片。
- 使用 Gemini 的多模态能力理解照片中的场景和细节。
- 构建并返回一个详细的响应，包含最符合查询的照片和信息。
确保安全和记忆修正：
- 采用安全措施，确保响应的适当性。
- 记住用户的反馈和修正，以改进未来的响应准确性。