Mixtral 8X22B：更便宜、更好、更快更强的数学和编码能力

by 小互
8月 ago

Mixtral 发布了 Mixtral 8X22B，它采用了稀疏混合专家（Sparse Mixture-of-Experts, SMoE）的架构。这种架构允许模型在运行时只激活部分参数，从而在维持高性能的同时大幅度提升了成本效率。具体来说，Mixtral 8x22B 的总参数量为141B，但实际运行时仅激活39B参数。

这种架构的主要优势：

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

加入会员

加入会员查看更多会员内容和教程。
超过1000+的会员内容，每天更新。

开通会员

Categories: XiaoHu.AI日报

Support authors and subscribe to content

加入会员

Related Content

Livekit推出一个开源的精准语音轮次检测模型 可精准识别用户是否说完话

微软开源了一款金融市场预测工具 MarS 能够实现逼真的市场模拟

MidJourney 推出个性化档案和情绪版新功能 记住你的风格喜好

Google视频和图像生成模型更新 包括Veo 2、Imagen 3和一个新工具Whisk

Google发布 2024年值得关注的Chrome扩展程序

Livekit推出一个开源的精准语音轮次检测模型可精准识别用户是否说完话

MidJourney 推出个性化档案和情绪版新功能记住你的风格喜好

Google视频和图像生成模型更新包括Veo 2、Imagen 3和一个新工具Whisk