Ferret-UI是由苹果开发的一个专门理解和与移动用户界面(UI)互动的多模态大语言模型(MLLM)。
它把移动UI的视觉元素和语言元素结合起来,不仅能“看懂”屏幕上的内容,还能理解用户的指令和问题,进而执行任务或提供信息。它的目标是成为一个“通用UI助手”,让它在不同设备上都能理解屏幕上的内容,并根据用户的需求做出相应的操作。
Ferret-UI是由苹果开发的一个专门理解和与移动用户界面(UI)互动的多模态大语言模型(MLLM)。
它把移动UI的视觉元素和语言元素结合起来,不仅能“看懂”屏幕上的内容,还能理解用户的指令和问题,进而执行任务或提供信息。它的目标是成为一个“通用UI助手”,让它在不同设备上都能理解屏幕上的内容,并根据用户的需求做出相应的操作。