Mixtral 发布了 Mixtral 8X22B,它采用了稀疏混合专家(Sparse Mixture-of-Experts, SMoE)的架构。这种架构允许模型在运行时只激活部分参数,从而在维持高性能的同时大幅度提升了成本效率。具体来说,Mixtral 8x22B 的总参数量为141B,但实际运行时仅激活39B参数。
这种架构的主要优势:
Mixtral 发布了 Mixtral 8X22B,它采用了稀疏混合专家(Sparse Mixture-of-Experts, SMoE)的架构。这种架构允许模型在运行时只激活部分参数,从而在维持高性能的同时大幅度提升了成本效率。具体来说,Mixtral 8x22B 的总参数量为141B,但实际运行时仅激活39B参数。
这种架构的主要优势: