苹果研究人员开发了一种新型人工智能系统,它能理解屏幕上下文和含糊不清的提法从而改善与语音助手的交互,使得与语音助手的互动更加自然。 ReALM 使用解析的屏幕实体重建屏幕,生成文本表示,其性能优于 GPT-4。 通过这项研究,苹果公司正在着力提高 Siri 的对话能力和情境感知能力。
该系统名为ReALM(引用解析作为语言建模),通过利用大型语言模型将引用解析的复杂任务——包括理解对屏幕上视觉元素的引用——转化为一个纯粹的语言建模问题。这使ReALM能够与现有方法相比取得显著的性能提升。ReALM的一个关键创新是重构屏幕,使用解析的屏幕实体及其位置生成文本表示,捕获视觉布局。