阿里云发布Qwen 2开源模型性能超越目前所有开源模型和国内闭源模型

阿里云发布Qwen 2开源模型，性能超越目前所有开源模型和国内闭源模型

Qwen 2 模型涵盖多种尺寸，包括 0.5B、1.5B、7B、57B-A14B 和 72B 5 种大小版本

模型在同尺寸模型的测评中，都获得了超越所有开源模型的成绩；

同时Qwen 2 性能超越了国内几乎所有的闭源大模型

训练集除中英文外，还包括 27 种语言

72B支持 128K上下文

在CompassArena 大模型竞技场上体验了下，确实是很强，应该是目前中文方面非常优秀的了。

HuggingFace Open LLM LeaderBoardHuggingFace 公开LLM 排行榜
- Qwen2发布后两小时，Hugging Face联合创始人兼首席执行官克莱门特·德朗格发推宣布，各位，HF开源大模型榜单新的第一出来了，Qwen2-72B
- 该排行榜被认为是当前大模型领域最具权威性的榜单之一，评测维度涵盖阅读理解、逻辑推理、数学计算、事实问答等六大评测，收录了全球上百个开源大模型。
OpenCompass
- Qwen-72B在上海人工智能实验室的OpenCompass开源基座大模型竞技场榜单中夺冠。OpenCompass评测平台涵盖学科、语言、知识、理解、推理等五大维度，并支持50余个数据集的评测，评测对象包括Qwen、LLaMA2等开源模型及GPT-4、ChatGPT等主流模型。

共包含5种不同尺寸的模型，分别为Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B。每个模型的大小不同，适用于不同的应用场景和需求。

模型尺寸

所有尺寸的模型都使用了GQA（Generalized Query Attention）技术，这项技术能够显著提升推理速度并降低显存占用。简单来说，GQA让模型可以更快地处理数据，并且在使用显存方面更加高效。

所有预训练模型都在32K tokens的数据上进行训练，这意味着它们可以处理很长的文本。在测试中，这些模型在处理128K tokens时依然表现良好。上下文长度越长，模型在处理长篇文本时的表现就越好。

除了预训练模型，Qwen2系列还包含指令微调模型，这些模型专门针对特定任务进行了优化。例如，Qwen2-7B-Instruct和Qwen2-72B-Instruct可以处理长达128K tokens的上下文长度。这些模型通过YARN等技术扩展了其处理长文本的能力。

Qwen2系列模型针对27种语言进行了优化，特别是中英文以外的多语言处理能力得到了显著提升。这意味着模型在处理多语言任务时更高效，发生语言转换（code switch）的概率大大降低。

针对较小的模型，使用了tie embedding技术，这种技术让输入和输出层共享参数，增加了非embedding参数的占比，使得模型在同样大小下更强大。

Qwen2系列模型在多个方面的测评结果显示，它们在各项任务中的表现都非常优异。以下是一些关键的测评结果和亮点：

Qwen2-72B模型在自然语言理解、知识掌握、代码生成、数学能力及多语言处理等方面均显著优于当前最好的开源模型，如Llama-3-70B和Qwen1.5系列的最大模型Qwen1.5-110B。

Qwen2系列模型在处理长文本方面表现优异，所有Instruct模型均在32K tokens上下文长度上进行训练，并通过YARN或Dual Chunk Attention等技术扩展至更长的上下文长度。
Qwen2-72B-Instruct能够处理长达128K tokens的上下文长度任务，表现非常稳定。
其他模型如Qwen2-7B-Instruct和Qwen2-57B-A14B-Instruct也能分别处理128K和64K tokens的上下文长度。