DBRX: 132B参数的新开源大语言模型细粒度混合专家架构

Databricks 团队宣布推出 DBRX，这是一种开放、通用的大语言模型（LLM），在一系列标准基准测试中设定了新的技术水平。DBRX 不仅超越了 GPT-3.5，并且与 Gemini 1.0 Pro 竞争，尤其在编程方面，它超越了专门的模型，如 CodeLLaMA-70B，显示了其作为通用 LLM 的强大能力。 DBRX 通过其细粒度的混合专家（MoE）架构，在开放模型中推动了效率的新标准。其推理速度是 LLaMA2-70B 的 2 倍，且尺寸约为 Grok-1 的 40%，无论是总参数量还是活跃参数量。当部署在 Mosaic AI Model Serving 上时，DBRX 的文本生成速度可达每用户每秒 150 个令牌。训练 MoEs 的计算效率是训练密集模型的两倍。 混合专家（MoE）架构 总参数量 ：DBRX 拥有 132B（即 1320 亿）总参数，其中 36B（360 亿）参数在任何给定的输入上是活跃的。 细粒度专家系统 ：与其他 MoE 模型如 Mixtral 和 Grok-1 相比，DBRX 使用了更多数量的较小专家。具体来说，DBRX 有 16 个专家，并选择 4 个进行组合，而 Mixtral 和 Grok-1 有 8 个专家，选择 2 个进行组合。这提供了 65 倍以上的专家组合可能性，从而改善了模型质量。 混合专家（MoE）架构是一种在大型语言模型中使用的技术，旨在通过将不同的“专家”网络组合来处理特定的任务或输入。每个专家都是模型中的一部分，专门处理一类特定的问题或数据。在 MoE 模型中，根据输入的不同，会选择最适合的一组专家来共同工作，以提供最佳的输出结果。这种方法可以大大增加模型的灵活性和处理能力。

在 DBRX 中，有 16 个这样的专家，而在每次处理输入时，会从这 16 个专家中选择 4 个来进行组合和工作。相比之下，Mixtral 和 Grok-1 模型分别有 8 个专家，并且每次只从中选择 2 个进行组合。这种设计差异导致了 DBRX 和其他两个模型在专家组合可能性上的显著差异。

当 DBRX 从 16 个专家中选择 4 个进行组合时，与 Mixtral 和 Grok-1 从 8 个中选择 2 个相比，DBRX 的专家组合总数大大增加。这意味着 DBRX 在处理不同类型的输入时，有更多的灵活性和定制化的处理能力。通过这种方式，DBRX 能够更准确地匹配到最适合当前任务的专家组合，从而提高模型的整体质量和性能。

强大的编程和数学能力 专业编程模型 ：DBRX 在编程相关的任务上超过了专门的模型，如 CodeLLaMA-70B，显示其不仅适用于一般性语言处理任务，也能处理专业领域的高难度问题。 数学问题解决 ：在数学基准测试上，DBRX 的表现也超过了其他开放模型，展示了其在解决复杂数学问题上的能力。 优化和预训练 使用 GPT-4 Tokenizer ：DBRX 使用的是 GPT-4 的 tokenizer，它来自 tiktoken 仓库，具有大词汇量和高效的令牌化能力，有助于提升模型的语言理解和生成性能。 预训练数据 ：模型在 12T 令牌的精心策划的文本和代码数据上进行预训练，最大上下文长度为 32k 令牌。相较于之前的模型族系，如 MPT 系列，这批新数据集在质量上有显著提升，被评估为至少比之前使用的数据要好两倍。 数据处理和管理 ：在预训练过程中，DBRX 利用了 Databricks 工具套件的全套功能，包括 Apache Spark™ 和 Databricks 笔记本进行数据处理，Unity Catalog 进行数据管理和治理，以及 MLflow 进行实验跟踪。 推理速度和模型尺寸 推理速度 ：DBRX 的推理速度比 LLaMA2-70B 快 2 倍，这使得它在处理大量文本时更为高效。 模型尺寸 ：尽管 DBRX 拥有 132B 的总参数量，它的尺寸约为 Grok-1 的 40%，这归因于其细粒度混合专家（MoE）架构，使得总参数量大幅减少，同时保持或提高了模型性能。 训练效率 FLOP 效率 ：DBRX 在训练混合专家模型时，其 FLOP（浮点运算次数）效率是训练密集模型的 2 倍。这意味着，对于相同的最终模型质量，DBRX 需要的计算资源更少。 计算效率 ：DBRX 的整体预训练过程比之前一代的 MPT 模型几乎高出 4 倍的计算效率。这表明 DBRX 在使用更少的计算资源时能够达到与之前模型相当或更高的质量。 基准测试表现 编程和数学能力 ：DBRX 在编程和数学基准测试上特别强大，例如在 HumanEval (编程) 和 GSM8k (数学) 测试中，它的表现超过了其他开放模型。 语言理解和合成 ：DBRX 在包括语言理解、阅读理解和常识推理在内的复合基准测试上也展现了优异的性能，如在 Hugging Face Open LLM Leaderboard 和 Databricks Model Gauntlet 测试中均取得了最高分。 长文本处理和 RAG 任务 长文本处理 ：DBRX 能够处理高达 32K 令牌的长文本上下文，其在长文本任务上的表现优于 GPT-3.5 Turbo，在多个长文本基准测试中与 GPT-4 Turbo 保持竞争。 检索增强生成（RAG） ：在 RAG 任务中，DBRX 与开放模型如 Mixtral Instruct 和 LLaMA2-70B Chat 以及 GPT-3.5 Turbo 保持竞争，展现了其强大的检索和回答能力。 技术博客： https:// databricks.com/blog/introduci ng-dbrx-new-state-art-open-llm - 模型下载： https:// huggingface.co/databricks/dbr x-base - 在线体验： https:// huggingface.co/databricks/dbr x-instruct