JetMoE-8B：不到10万美元的训练成本性能却超越LLaMA2-7B

JetMoE-8B 是一个高性能的大语言模型，它以不到10万美元的成本训练，性能超过了Meta AI的LLaMA2-7B模型，后者拥有数十亿美元的训练资源。这表明训练大语言模型(LLMs)的成本可以远低于普遍预期。

模型利用公开数据集进行训练，任何实验室都能以较低成本进行模型微调。JetMoE-8B采用了一种稀疏激活的架构，使其在执行任务时只激活必要的参数，从而降低了运行成本。

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

加入会员查看更多会员内容和教程。
超过1000+的会员内容，每天更新。

开通会员