加州大学研发出新的 Transformer 架构 显著减少大模型对GPU的依赖

矩阵乘法(MatMul)是使用Transformer架构的大语言模型(LLM)中最耗费计算资源的操作,需要大量的GPU集群。随着LLM规模的扩大,MatMul的成本显著增加,从而导致训练和推理时的内存使用和延迟增加。

加利福尼亚大学圣克鲁兹分校(University of California, Santa Cruz)、苏州大学(Soochow University)和加利福尼亚大学戴维斯分校(University of California, Davis)的研究人员开发了一种新颖的架构,该架构完全消除了语言模型中的矩阵乘法,在保持高性能的同时显著减少了内存使用。

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

Subscribe

Gain access to all our Premium contents.
More than 100+ articles.
退出移动版