苹果开发出能 “看 “懂屏幕上下文的人工智能不需要依赖屏幕截图

苹果研究人员开发了一种新型人工智能系统，它能理解屏幕上下文和含糊不清的提法从而改善与语音助手的交互，使得与语音助手的互动更加自然。 ReALM 使用解析的屏幕实体重建屏幕，生成文本表示，其性能优于 GPT-4。通过这项研究，苹果公司正在着力提高 Siri 的对话能力和情境感知能力。

该系统名为ReALM（引用解析作为语言建模），通过利用大型语言模型将引用解析的复杂任务——包括理解对屏幕上视觉元素的引用——转化为一个纯粹的语言建模问题。这使ReALM能够与现有方法相比取得显著的性能提升。ReALM的一个关键创新是重构屏幕，使用解析的屏幕实体及其位置生成文本表示，捕获视觉布局。

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

加入会员查看更多会员内容和教程。
超过1000+的会员内容，每天更新。

开通会员