X AI 发布Grok-1.5 Vision多模态模型预览多项基准测试领先GPT 4V

马斯克X AI发布Grok-1.5 Vision 多模态模型

Grok-1.5V能够处理文本以及各种视觉信息，包括文档、图表、截图和照片。

基准测试中，Grok-1.5V 的能力和GPT 4V不相上下，多项指标甚至超过GPT 4V！

在新RealWorldQA真实世界物理空间基准中的表现超过GPT 4V等所有模型！

应该是使用了特斯拉的摄像头数据进行了训练！

RealWorldQA基准：这是一个新的基准测试，旨在评估多模态模型在理解真实世界物理空间方面的能力，包含超过700个问题和答案，主要采用来自车辆前摄像头等实际环境中的图像。

Grok-1.5V将很快向早期测试者和现有Grok用户开放。

关键能力点列出：

多学科推理： Grok-1.5V在多学科推理领域表现突出。
理解文档和科学图表： 能有效理解科学图表、文档等复杂视觉资料。
实际应用中的表现： 在RealWorldQA基准测试中，Grok-1.5V表现优于多数同类模型，展现了对现实世界问题的理解能力。

数据表现对比：

多模态推理 (MMMU)： Grok-1.5V的表现为53.6%，相比其他模型如GPT-4V的56.8%稍低。
文本视觉问答 (TextVQA)： 在文本读取能力上，Grok-1.5V与GPT-4V持平，均为78%。
图表视觉问答 (ChartQA)： 在图表理解上，Grok-1.5V的表现稍低于竞争对手，为76.1%。
文档视觉问答 (DocVQA)： 在文档理解上，Grok-1.5V表现为85.6%，略低于GPT-4V的88.4%。
真实世界理解 (RealWorldQA)： 在真实世界的空间理解上，Grok-1.5V以68.7%的成绩领先大多数模型。

Grok团队计划在未来几个月内，对模型的多模态理解和生成能力进行重大改进，扩展到图像、音频和视频等不同的模态。

详细：https://x.ai/blog/grok-1.5v

Menu

分类目录

X AI 发布Grok-1.5 Vision多模态模型预览多项基准测试领先GPT 4V

Related Posts

Livekit推出一个开源的精准语音轮次检测模型可精准识别用户是否说完话

微软开源了一款金融市场预测工具 MarS 能够实现逼真的市场模拟

MidJourney 推出个性化档案和情绪版新功能记住你的风格喜好

Google视频和图像生成模型更新包括Veo 2、Imagen 3和一个新工具Whisk

Google发布 2024年值得关注的Chrome扩展程序

Xai 发布 Grok-2 模型新版本速度提升3倍多语言指令遵循能力更强

Recommendeds

Meta AI 发布 Llama 3.2 多模态AI模型性能与GPT4o-mini 相当能够在边缘设备上高效运行

StoryTribe ：一个免费的在线故事板制作工具无需绘画技能轻松制作故事板

『iOS 18.0 超详细体验报告』 52 项改进详细介绍以及BUG和升级方法

Sailor：是一套为东南亚国家量身定制的语言模型

Meta AI推出AI Studio平台基于lama 3.1 用户可以自己创建自己的AI角色

GPT-Academic：专门针对论文阅读、写作润色优化的学术GPT

VimTS：自动识别图像或视频序中的文本信息并精确提取内容

PDF2Audio：将 PDF 文件转换为播客、讲座、摘要等音频内容

Resona V2A ：利用AI解读理解视频自动为视频进行配音配乐

马里兰大学开发出一种”隐形斗篷” 可以让监控无法识别到你

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

Menu

分类目录

X AI 发布Grok-1.5 Vision多模态模型预览 多项基准测试领先GPT 4V

Related Posts

Recommendeds

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

X AI 发布Grok-1.5 Vision多模态模型预览多项基准测试领先GPT 4V