DBRX: 132B参数的 新开源大语言模型 细粒度混合专家架构

Databricks 团队宣布推出 DBRX,这是一种开放、通用的大语言模型(LLM),在一系列标准基准测试中设定了新的技术水平。DBRX 不仅超越了 GPT-3.5,并且与 Gemini 1.0 Pro 竞争,尤其在编程方面,它超越了专门的模型,如 CodeLLaMA-70B,显示了其作为通用 LLM 的强大能力。

DBRX 通过其细粒度的混合专家(MoE)架构,在开放模型中推动了效率的新标准。其推理速度是 LLaMA2-70B 的 2 倍,且尺寸约为 Grok-1 的 40%,无论是总参数量还是活跃参数量。当部署在 Mosaic AI Model Serving 上时,DBRX 的文本生成速度可达每用户每秒 150 个令牌。训练 MoEs 的计算效率是训练密集模型的两倍。

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

加入会员

加入会员查看更多会员内容和教程。
超过1000+的会员内容,每天更新。
退出移动版