加州大学研发出新的 Transformer 架构显著减少大模型对GPU的依赖

矩阵乘法（MatMul）是使用Transformer架构的大语言模型（LLM）中最耗费计算资源的操作，需要大量的GPU集群。随着LLM规模的扩大，MatMul的成本显著增加，从而导致训练和推理时的内存使用和延迟增加。 加利福尼亚大学圣克鲁兹分校(University of California, Santa Cruz)、苏州大学(Soochow University)和加利福尼亚大学戴维斯分校(University of California, Davis)的研究人员开发了一种新颖的架构，该架构 完全消除了语言模型中的矩阵乘法 ，在保持高性能的同时显著减少了内存使用。 实验表明，所提出的无MatMul模型在2.7B参数规模下的性能与需要更多内存的最先进Transformer相当。他们还提供了一种GPU高效实现，训练时减少高达61%的内存使用。通过优化推理内核，模型在推理时的内存消耗比未经优化的模型减少了10倍以上，通过使用优化后的内核，推理速度提升了4.57倍。 论文还展示了一种在FPGA上实现的自定义硬件解决方案，处理十亿参数规模的模型时功耗为13W，接近人脑的效率。 技术方法 1. 使用三元权重代替传统权重 在神经网络中，计算输入数据和权重的乘积通常需要大量的矩阵乘法。为了减少计算复杂度，研究人员使用了一种叫做三元权重的技术。三元权重只允许权重值是-1、0或+1。这样，当我们计算时，只需要进行加法或减法操作，例如：

如果权重是+1，我们就把对应的输入值加到结果中。 如果权重是-1，我们就把对应的输入值减去。 如果权重是0，我们就忽略这个输入值。 通过这种方法，复杂的乘法操作被替换成了简单的加减法操作，从而大大降低了计算的复杂性和成本。

2. 优化门控循环单元（GRU） 传统的语言模型使用自注意力机制，需要大量的矩阵乘法。为了消除矩阵乘法，研究人员提出了一种新的结构，使用改进的循环神经网络（GRU）来替代自注意力机制。，研究人员对GRU进行了优化： 删除隐藏状态相关的权重 ：去掉GRU中与隐藏状态相关的权重矩阵，简化结构。 逐元素操作 ：使用逐元素乘积（即每个元素分别相乘）代替矩阵乘法。 数据依赖的输出门 ：添加一个输出门，根据输入数据来控制输出，从而提高模型的灵活性和效率。 通过这种改进，新的GRU模型完全不需要矩阵乘法操作，从而大大降低了计算复杂度。

3. 提高硬件效率的方法 计算过程中，数据需要在内存和处理器之间频繁移动，这会消耗大量时间。为了提高效率，研究人员设计了一种融合算法，把多种操作（如标准化和量化）合并在一次计算中完成。这样，数据只需要在内存和处理器之间移动一次，就可以完成多步操作。

研究人员在GPU和FPGA上进行了硬件优化： GPU优化 ：使用融合内核（fused kernels），将多个操作合并到一个内核中执行，减少内存访问次数，提高计算速度。 FPGA加速器 ：构建了一种专用的硬件加速器，专门用于处理三元权重和逐元素操作，大幅减少功耗和计算时间。 具体的过程如下：

标准化 ：对输入数据进行均值和方差计算，使其标准化。 量化 ：将标准化后的数据转换为整数形式，以减少计算复杂度。 计算输出 ：用量化后的数据进行加减法操作，得到最终输出。 这种融合算法减少了数据传输次数，提高了整体计算速度。

4. 训练细节 代理梯度 ：在训练过程中，某些操作（如取整和截断）是不可微的，为了处理这些操作，研究人员使用了一种代理梯度方法，使得模型可以继续学习。 较大的学习率 ：为了加快模型的收敛速度，研究人员使用了较大的学习率。这样，模型可以更快地找到最佳参数。 学习率调度器 ：在训练过程中，使用一种余弦调度器逐步减小学习率。这有助于模型在后期训练时更加稳定。 5. 硬件实现 研究人员在FPGA（可编程硬件）上实现了这个新的语言模型。他们设计了四个主要功能模块：

行操作单元 ：进行加法、减法、乘法和除法等基本操作。 均方根单元 ：计算输入数据的均方根，用于标准化处理。 加载存储单元 ：负责数据的读取和存储操作。 三元矩阵乘法单元 ：专门处理三元权重的矩阵乘法操作。 通过这些功能模块，FPGA可以高效地执行语言模型的计算任务，显著提高了计算速度并降低了能耗。

性能指标 在单核实现的基础上，研究人员测试了硬件的功耗和性能： 单核实现 ：在d=512的情况下，前向传播时间为43ms，时钟频率为60MHz。 多核实现 ：通过并行化和优化，预计速度可以提高64倍，功耗显著降低。 以下是具体的性能和功耗指标： 平均功耗 ：13W，这与人脑的能效相当。 延迟 ：单核情况下为43ms，多核情况下可以进一步降低延迟。 实验结果 研究人员进行了多项实验来验证他们提出的方法，并且结果显示他们的无矩阵乘法（MatMul-free）语言模型在性能和效率方面表现出色。以下是实验结果的详细总结： 1. 性能对比 研究人员将他们的无MatMul模型与最先进的Transformer模型进行了对比，测试了不同规模（370M、1.3B和2.7B参数）的模型在多项基准任务上的表现。主要结果如下： 370M参数模型 ：无MatMul模型在一些任务上的性能略逊于Transformer模型，但整体差距不大。 1.3B参数模型 ：无MatMul模型的性能接近于Transformer模型，在一些任务上表现相当。 2.7B参数模型 ：无MatMul模型在某些任务上甚至超过了Transformer模型，显示了良好的扩展性。 总体而言，随着模型规模的增加，无MatMul模型与传统Transformer模型的性能差距逐渐缩小，甚至在一些任务上表现更好。 2. 内存和计算效率 训练时的内存使用 ：无MatMul模型在训练时减少了高达61%的内存消耗。 推理时的内存使用 ：无MatMul模型在推理时的内存消耗比未经优化的模型减少了10倍以上。 计算速度 ：在训练时，无MatMul模型的计算速度比传统模型快了25.6%。在推理时，速度提高了4.57倍。 3. 扩展性 研究人员还探讨了模型的扩展规律，结果显示无MatMul模型在利用更多计算资源来提高性能方面更为高效。具体表现为： 无MatMul模型的性能曲线较传统Transformer更为陡峭，表明其在增加计算资源时能更快地提高性能。 当计算规模达到一定程度（大约为Llama-3 8B或Llama-2 70B的训练计算量）时，无MatMul模型的性能预计将超过传统Transformer模型。 4. 硬件实现 在FPGA实现中，无MatMul模型展示了极低的动态功耗和较高的计算效率： 单核实现 ：在单核情况下，无MatMul模型的前向传播时间为43ms（d=512），时钟频率为60MHz。 多核实现 ：通过并行化和优化，预计速度可提高64倍，从而显著减少计算时间和功耗。 总结 通过这些实验结果，可以看出无MatMul语言模型在性能和效率上都具有显著优势。具体而言： 性能方面 ：在不同规模的模型上，无MatMul模型与传统Transformer模型表现相当，甚至在某些任务上更优。 效率方面 ：无MatMul模型在训练和推理时都表现出极高的计算效率和内存利用率。 扩展性方面 ：无MatMul模型在增加计算资源时表现出更高的性能提升速率，显示了良好的扩展潜力。 研究的潜在影响 可访问性和可持续性