Answer.AI发布了一个基于FSDP(Fully Sharded Data Parallel,完全分片数据并行)和QLoRA的开源系统,这个系统首次能够在普通的桌面电脑上高效训练出一个70B(700亿参数)的大语言模型。
这是一种革命性的开源系统,你只需要两个普通游戏显卡(比如RTX 3090或4090)就能训练一个70亿参数的大型语言模型。该项目结合了 Tim Dettmers 的 QLoRA(一种模型训练技术) 和 Meta 的 FSDP(完全分片数据并行技术) 技术,通过量化让模型减小约4倍大小,并通过多GPU分片处理大型模型。这种结合让原本需要大量内存和昂贵硬件支持的巨型模型训练,变得在普通桌面电脑上就可以完成。