Mistral 推出了其首个多模态模型 Pixtral 12B 可以处理图像和文本任务

by 小互
2月 ago

法国 AI 初创公司 Mistral 推出了其首个多模态模型 Pixtral 12B，该模型具有120 亿参数，可以处理图像和文本任务，适用于图像标注、物体计数等任务。与其他多模态模型（如 Anthropic 的 Claude 系列和 OpenAI 的 GPT-4o）类似。

Pixtral 12B 基于 Mistral 的文本模型 Nemo 12B 开发，能够通过 URL 或 base64 编码的图像回答与图像相关的问题。理论上可以执行图像字幕生成、物体计数等任务。

图像标注：模型能够根据图片生成简洁而准确的描述。
物体计数：用户可以通过模型快速获得图像中物体的数量。
生成任务：适用于需要图像和文本结合的复杂 AI 任务，如视觉问答、图像生成等。

Pixtral 12B 可以通过 GitHub 和 Hugging Face 下载，支持在 Apache 2.0 许可下进行微调和使用。

Mistral 开发者关系负责人 Sophia Yang 表示，Pixtral 12B 将很快在 Mistral 的聊天机器人和 API 服务平台 Le Chat 和 Le Plateforme 上提供测试。

Mistral 并没有公布Pixtral 12B的更多信息。Mistral 邀请了一些人员参加了一个峰会会议，其中展示了 Pixtral 12B 的一些基准测试结果。

模型下载：

magnet:?xt=urn:btih:7278e625de2b1da598b23954c13933047126238a&dn=pixtral-12b-240910&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce&tr=udp%3A%2F%2Fopen.demonii.com%3A1337%2Fannounce&tr=http%3A%2F%2Ftracker.ipv6tracker.org%3A80%2Fannounce

Categories: XiaoHu.AI日报

退出移动版