Mistral 推出了其首个多模态模型 Pixtral 12B 可以处理图像和文本任务

法国 AI 初创公司 Mistral 推出了其首个多模态模型 Pixtral 12B,该模型具有120 亿参数,可以处理图像和文本任务,适用于图像标注、物体计数等任务。与其他多模态模型(如 Anthropic 的 Claude 系列和 OpenAI 的 GPT-4o)类似。

Pixtral 12B 基于 Mistral 的文本模型 Nemo 12B 开发,能够通过 URL 或 base64 编码的图像回答与图像相关的问题。理论上可以执行图像字幕生成、物体计数等任务。

Pixtral 12B 可以通过 GitHubHugging Face 下载,支持在 Apache 2.0 许可下进行微调和使用。

Mistral 开发者关系负责人 Sophia Yang 表示,Pixtral 12B 将很快在 Mistral 的聊天机器人和 API 服务平台 Le Chat 和 Le Plateforme 上提供测试。

Mistral 并没有公布Pixtral 12B的更多信息。Mistral 邀请了一些人员参加了一个峰会会议,其中展示了 Pixtral 12B 的一些基准测试结果。

 

模型下载:

magnet:?xt=urn:btih:7278e625de2b1da598b23954c13933047126238a&dn=pixtral-12b-240910&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce&tr=udp%3A%2F%2Fopen.demonii.com%3A1337%2Fannounce&tr=http%3A%2F%2Ftracker.ipv6tracker.org%3A80%2Fannounce

退出移动版