Google将推出Ask Photos 用户能够通过自然语言搜索本机里照片和视频

Ask Photos 是 Google Photos 即将推出的实验性功能,利用 AI 模型 Gemini,使用户能够通过自然语言问题搜索照片和视频,并辅助完成相关任务。

Ask Photos 的主要功能:

  1. 自然语言搜索:Ask Photos 允许用户使用自然语言问题来搜索照片和视频。无需记住具体的关键词或拍摄日期,用户可以直接询问:“去年我们在哪个国家露营?”或“我的孩子第一次生日是什么时候?”Ask Photos 会根据这些问题找到相关的照片。
  2. 上下文理解和细节提取:Gemini AI 模型能够理解照片的上下文和主题,提取其中的细节信息。例如,用户可以问:“我们过去几年的圣诞节装饰是什么样的?”Ask Photos 会分析照片中的背景装饰、场景和其他细节,并提供相关的结果。
  3. 任务辅助:Ask Photos 不仅帮助用户搜索照片,还能辅助完成各种任务:
    • 创建旅行亮点:用户可以让 Ask Photos 帮助创建旅行照片集锦,只需简单地询问即可得到精选照片和个性化的分享文字。
    • 撰写个性化的社交媒体分享内容:Ask Photos 可以根据照片内容生成个性化的描述,方便用户在社交媒体上分享。
  4. 多模态能力:Gemini 的多模态能力使其能够处理和理解照片中的复杂信息,包括文字、场景和人物。例如,用户可以询问:“Lena 的生日派对有哪些主题?”Ask Photos 会分析生日蛋糕、装饰和其他背景细节来回答这个问题。
  5. 动态调整和学习:Ask Photos 可以根据用户的反馈进行动态调整和学习。如果用户纠正或提供了额外的信息,Ask Photos 会记住这些细节,以便在未来的搜索和任务中提供更准确的结果。

Ask Photos 的工作原理

Ask Photos 功能背后的工作机制可以分为三个主要步骤:理解问题、生成响应以及确保安全和记忆修正。以下是详细解释:

1. 理解问题

Ask Photos 首先会理解用户的查询,并形成一个找到答案的计划。

2. 生成响应

理解问题后,Ask Photos 通过多步骤生成一个响应:

3. 确保安全和记忆修正

在整个过程中,Ask Photos 采取了多层次的措施,确保响应的安全性和适当性,并能记住用户的修正。

工作示意图
  1. 用户输入问题
    • 用户:去年我在哪里露营?
  2. 理解问题
    • 解析查询,识别关键词“去年”和“露营”。
    • 形成搜索计划,查找相关照片。
  3. 生成响应
    • 分析搜索结果,选择最相关的露营照片。
    • 使用 Gemini 的多模态能力理解照片中的场景和细节。
    • 构建并返回一个详细的响应,包含最符合查询的照片和信息。
  4. 确保安全和记忆修正
    • 采用安全措施,确保响应的适当性。
    • 记住用户的反馈和修正,以改进未来的响应准确性。

原帖:https://blog.google/products/photos/ask-photos-google-io-2024/

退出移动版