DBRX: 132B参数的新开源大语言模型细粒度混合专家架构

by 小互
9月 ago

Databricks 团队宣布推出 DBRX，这是一种开放、通用的大语言模型（LLM），在一系列标准基准测试中设定了新的技术水平。DBRX 不仅超越了 GPT-3.5，并且与 Gemini 1.0 Pro 竞争，尤其在编程方面，它超越了专门的模型，如 CodeLLaMA-70B，显示了其作为通用 LLM 的强大能力。

DBRX 通过其细粒度的混合专家（MoE）架构，在开放模型中推动了效率的新标准。其推理速度是 LLaMA2-70B 的 2 倍，且尺寸约为 Grok-1 的 40%，无论是总参数量还是活跃参数量。当部署在 Mosaic AI Model Serving 上时，DBRX 的文本生成速度可达每用户每秒 150 个令牌。训练 MoEs 的计算效率是训练密集模型的两倍。

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

加入会员

加入会员查看更多会员内容和教程。
超过1000+的会员内容，每天更新。

开通会员

Categories: XiaoHu.AI日报

Support authors and subscribe to content

加入会员

Related Content

Livekit推出一个开源的精准语音轮次检测模型 可精准识别用户是否说完话

微软开源了一款金融市场预测工具 MarS 能够实现逼真的市场模拟

MidJourney 推出个性化档案和情绪版新功能 记住你的风格喜好

Google视频和图像生成模型更新 包括Veo 2、Imagen 3和一个新工具Whisk

Google发布 2024年值得关注的Chrome扩展程序

Livekit推出一个开源的精准语音轮次检测模型可精准识别用户是否说完话

MidJourney 推出个性化档案和情绪版新功能记住你的风格喜好

Google视频和图像生成模型更新包括Veo 2、Imagen 3和一个新工具Whisk