Mixtral 8X22B:更便宜、更好、更快 更强的数学和编码能力

Mixtral 发布了 Mixtral 8X22B,它采用了稀疏混合专家(Sparse Mixture-of-Experts, SMoE)的架构。这种架构允许模型在运行时只激活部分参数,从而在维持高性能的同时大幅度提升了成本效率。具体来说,Mixtral 8x22B 的总参数量为141B,但实际运行时仅激活39B参数。

这种架构的主要优势:

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

Subscribe

Gain access to all our Premium contents.
More than 100+ articles.
退出移动版