JetMoE-8B:不到10万美元的训练成本 性能却超越LLaMA2-7B

JetMoE-8B 是一个高性能的大语言模型,它以不到10万美元的成本训练,性能超过了Meta AI的LLaMA2-7B模型,后者拥有数十亿美元的训练资源。这表明训练大语言模型(LLMs)的成本可以远低于普遍预期。

模型利用公开数据集进行训练,任何实验室都能以较低成本进行模型微调。JetMoE-8B采用了一种稀疏激活的架构,使其在执行任务时只激活必要的参数,从而降低了运行成本。

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

Subscribe

Gain access to all our Premium contents.
More than 100+ articles.
退出移动版