Mistral AI 发布最新一代开源模型：Mistral Large 2 1230亿参数

Mistral AI 宣布了其旗舰模型的最新一代——Mistral Large 2。与前代相比，Mistral Large 2 在代码生成、数学和推理方面显著提升，并提供更强的多语言支持和先进的函数调用能力。

该模型具备128k的上下文窗口，支持多种语言和80多种编程语言。Mistral Large 2 设计用于单节点推理，适合长上下文应用，拥有1230亿参数。

多语言支持：设计时即支持多种语言。
编程能力：在80多种编程语言上进行了训练，如Python、Java、C、C++、JavaScript和Bash，还包括Swift和Fortran等特定语言。
代理能力：具备最佳的代理功能，支持本地函数调用和JSON输出。
高级推理：拥有最先进的数学和推理能力。
大上下文窗口：提供128k的上下文窗口。
MMLU (大规模多语言理解测试): 84.0%
Human Eval (编程能力测试): 92%
GSM8K (数学基准测试): 93%

性能

效率与成本：在性能和成本的权衡方面，Mistral Large 2 设立了新的标准。在MMLU评估中，预训练版本的准确率达到了84.0%。
代码与推理：模型经过大量代码数据训练，在代码生成和推理能力上超过了前代模型，与GPT-4o、Claude 3 Opus、Llama 3 405B等领先模型表现相当。通过细致的微调，模型在减少“幻觉”现象方面取得了显著进展。

多语言支持

语言多样性：Mistral Large 2 在多语言数据上训练，特别擅长处理多种语言，如英语、法语、德语、西班牙语、意大利语、葡萄牙语、俄语、中文、日语、韩语、阿拉伯语和印地语。以及包括Python、Java、C、C++、JavaScript和Bash在内的80多种编程语言。
多语言MMLU性能：在多语言MMLU基准测试中的表现优于之前的Mistral Large和其他同类模型。

功能调用

总体性能

性能/成本：Mistral Large 2 在性能和成本的权衡方面设立了新的标准。在 MMLU（多任务语言理解）评估中，预训练版本的准确率达到了 84.0%，在开源模型中占据了性能/成本的前沿。

代码与推理能力

代码生成基准测试：在代码生成基准测试中，Mistral Large 2 表现优异，与领先的模型如 GPT-4o、Claude 3 Opus 和 Llama 3 405B 相当。
推理能力：模型在推理能力上显著提升，通过细致的微调，减少了生成不准确或无关信息的“幻觉”现象。模型在数学基准测试中的表现证明了其增强的推理和问题解决能力。

代码生成基准的性能精度（所有模型均通过相同的评估管道进行基准测试）

在 MultiPL-E 上的性能精度（除 “纸质 “行外，所有模型均通过相同的评估管道进行基准测试）