X AI 发布Grok-1.5 Vision多模态模型预览 多项基准测试领先GPT 4V

马斯克X AI发布Grok-1.5 Vision 多模态模型

Grok-1.5V能够处理文本以及各种视觉信息,包括文档、图表、截图和照片。

基准测试中,Grok-1.5V 的能力和GPT 4V不相上下,多项指标甚至超过GPT 4V!

在新RealWorldQA真实世界物理空间基准中的表现超过GPT 4V等所有模型!

应该是使用了特斯拉的摄像头数据进行了训练!

RealWorldQA基准:这是一个新的基准测试,旨在评估多模态模型在理解真实世界物理空间方面的能力,包含超过700个问题和答案,主要采用来自车辆前摄像头等实际环境中的图像。

Grok-1.5V将很快向早期测试者和现有Grok用户开放。

关键能力点列出:

数据表现对比:

 Grok团队计划在未来几个月内,对模型的多模态理解和生成能力进行重大改进,扩展到图像、音频和视频等不同的模态。

详细:https://x.ai/blog/grok-1.5v

退出移动版