加州大学研发出新的 Transformer 架构显著减少大模型对GPU的依赖

by 小互
6月 ago

矩阵乘法（MatMul）是使用Transformer架构的大语言模型（LLM）中最耗费计算资源的操作，需要大量的GPU集群。随着LLM规模的扩大，MatMul的成本显著增加，从而导致训练和推理时的内存使用和延迟增加。

加利福尼亚大学圣克鲁兹分校(University of California, Santa Cruz)、苏州大学(Soochow University)和加利福尼亚大学戴维斯分校(University of California, Davis)的研究人员开发了一种新颖的架构，该架构完全消除了语言模型中的矩阵乘法，在保持高性能的同时显著减少了内存使用。

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

加入会员

加入会员查看更多会员内容和教程。
超过1000+的会员内容，每天更新。

开通会员

Categories: AI 论文, XiaoHu.AI日报

Support authors and subscribe to content

加入会员

Related Content

ElevenLabs 推出对话式AI工具 可在几分钟内为网站、应用或电话中心创建语音代理

Luma 推出 Luma Photon 和 Photon Flash 基于全新架构的图像生成模型

Hume AI 推出 Voice Control 功能 通过滑块操作即可实现个性化的语音定制

不同文本转语音（TTS）模型对比 优缺点以及场景选择

IC-Light 升级为IC-Light V2-Vary 可更灵活地调整光源位置和强度

ElevenLabs 推出对话式AI工具可在几分钟内为网站、应用或电话中心创建语音代理

Hume AI 推出 Voice Control 功能通过滑块操作即可实现个性化的语音定制

不同文本转语音（TTS）模型对比优缺点以及场景选择