Nous Research 最近推出了DisTrO(Distributed Training Over-the-Internet)是一个专为在低带宽网络环境下高效训练大规模神经网络而设计的工具。它的设计目的是显著减少在分布式训练中各个GPU之间的通信需求,使得即使在普通的互联网连接上,也能高效地训练大模型。
在训练大规模语言模型(LLMs)或扩散模型(LDMs)时,通常需要在多个加速器(如GPU或TPU)之间同步大量的数据,这需要非常高的网络带宽和紧密连接的硬件设施。传统的训练方法需要专门的高速互连网络,这种需求导致训练成本极高,只有大型科技公司或政府才能负担得起。
DisTrO 通过大幅减少不同GPU之间的数据通信需求,解决了这个问题。它允许在带宽受限甚至是普通互联网连接的环境下高效地进行大规模神经网络的训练,同时保持与传统方法相同的收敛速度。这个突破使得大规模模型的训练更加普及和经济,使得没有昂贵硬件设施的团队也可以参与大规模人工智能研究和开发。
DisTrO还具有适应去中心化训练和联邦学习的潜力,这可能会改变未来AI训练的方式,甚至降低对环境的影响。
The details: 细节: |