研究:语言模型可以通过吸收同源模型的参数来获得新的能力

这篇论文展示了语言模型(LMs)可以通过吸收(即融合)来自同源模型的参数来获得新的能力,这个过程不需要重新训练或使用GPU。这种方法的核心是利用DARE(DropAndREscale)技术,它通过减少模型参数中的冗余(即将某些参数设为零并重新缩放剩余参数),使得可以将多个专用于特定任务的模型合并成一个多能力模型,而不损失性能。

这就像超级玛丽能够通过吸收道具来获得额外的能力,如变大、发射火球等。

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

Subscribe

Gain access to all our Premium contents.
More than 100+ articles.
退出移动版