Databricks 团队宣布推出 DBRX,这是一种开放、通用的大语言模型(LLM),在一系列标准基准测试中设定了新的技术水平。DBRX 不仅超越了 GPT-3.5,并且与 Gemini 1.0 Pro 竞争,尤其在编程方面,它超越了专门的模型,如 CodeLLaMA-70B,显示了其作为通用 LLM 的强大能力。
DBRX 通过其细粒度的混合专家(MoE)架构,在开放模型中推动了效率的新标准。其推理速度是 LLaMA2-70B 的 2 倍,且尺寸约为 Grok-1 的 40%,无论是总参数量还是活跃参数量。当部署在 Mosaic AI Model Serving 上时,DBRX 的文本生成速度可达每用户每秒 150 个令牌。训练 MoEs 的计算效率是训练密集模型的两倍。