Ask Photos 是 Google Photos 即将推出的实验性功能,利用 AI 模型 Gemini,使用户能够通过自然语言问题搜索照片和视频,并辅助完成相关任务。
- Ask Photos 允许用户使用自然语言问题来搜索照片和视频。
- 例如,用户可以询问“去年在哪里露营”或“我的代金券什么时候过期”,Ask Photos 会找到相关的照片和信息。
Ask Photos 的主要功能:
- 自然语言搜索:Ask Photos 允许用户使用自然语言问题来搜索照片和视频。无需记住具体的关键词或拍摄日期,用户可以直接询问:“去年我们在哪个国家露营?”或“我的孩子第一次生日是什么时候?”Ask Photos 会根据这些问题找到相关的照片。
- 上下文理解和细节提取:Gemini AI 模型能够理解照片的上下文和主题,提取其中的细节信息。例如,用户可以问:“我们过去几年的圣诞节装饰是什么样的?”Ask Photos 会分析照片中的背景装饰、场景和其他细节,并提供相关的结果。
- 任务辅助:Ask Photos 不仅帮助用户搜索照片,还能辅助完成各种任务:
- 创建旅行亮点:用户可以让 Ask Photos 帮助创建旅行照片集锦,只需简单地询问即可得到精选照片和个性化的分享文字。
- 撰写个性化的社交媒体分享内容:Ask Photos 可以根据照片内容生成个性化的描述,方便用户在社交媒体上分享。
- 多模态能力:Gemini 的多模态能力使其能够处理和理解照片中的复杂信息,包括文字、场景和人物。例如,用户可以询问:“Lena 的生日派对有哪些主题?”Ask Photos 会分析生日蛋糕、装饰和其他背景细节来回答这个问题。
- 动态调整和学习:Ask Photos 可以根据用户的反馈进行动态调整和学习。如果用户纠正或提供了额外的信息,Ask Photos 会记住这些细节,以便在未来的搜索和任务中提供更准确的结果。
Ask Photos 的工作原理
Ask Photos 功能背后的工作机制可以分为三个主要步骤:理解问题、生成响应以及确保安全和记忆修正。以下是详细解释:
1. 理解问题
Ask Photos 首先会理解用户的查询,并形成一个找到答案的计划。
- 解析查询:利用自然语言处理技术,Ask Photos 能够解析用户输入的自然语言问题,识别相关的关键词,如地点、人物和日期,以及自然语言概念,如“主题生日派对”。
- 形成搜索计划:根据解析结果,Ask Photos 生成一个搜索计划,确定需要查找的具体信息。
2. 生成响应
理解问题后,Ask Photos 通过多步骤生成一个响应:
- 分析搜索结果:对搜索结果进行分析,确定哪些照片和视频最相关,哪些看起来最符合用户的查询。
- 多模态能力:利用 Gemini 的多模态能力,Ask Photos 可以理解每张照片中具体发生的情况,甚至可以读取图像中的文字(如果需要)。
- 构建响应:根据分析结果,Ask Photos 生成一个详细且有用的响应,选择并返回最符合用户需求的照片和视频。
3. 确保安全和记忆修正
在整个过程中,Ask Photos 采取了多层次的措施,确保响应的安全性和适当性,并能记住用户的修正。
- 安全保障:尽管 Ask Photos 是实验性功能,并不能保证所有响应都是完全正确的,Google 依然采用了多层次的安全措施和 AI 模型,确保响应是安全和合适的。
- 记忆修正:如果用户纠正了一个答案或提供了额外的信息,Ask Photos 可以记住这些细节,以便在未来的查询中提供更准确的响应。
工作示意图
- 用户输入问题:
- 用户:去年我在哪里露营?
- 理解问题:
- 解析查询,识别关键词“去年”和“露营”。
- 形成搜索计划,查找相关照片。
- 生成响应:
- 分析搜索结果,选择最相关的露营照片。
- 使用 Gemini 的多模态能力理解照片中的场景和细节。
- 构建并返回一个详细的响应,包含最符合查询的照片和信息。
- 确保安全和记忆修正:
- 采用安全措施,确保响应的适当性。
- 记住用户的反馈和修正,以改进未来的响应准确性。
原帖:https://blog.google/products/photos/ask-photos-google-io-2024/