JetMoE-8B：不到10万美元的训练成本性能却超越LLaMA2-7B

JetMoE-8B 是一个高性能的大语言模型，它以不到10万美元的成本训练，性能超过了Meta AI的LLaMA2-7B模型，后者拥有数十亿美元的训练资源。这表明训练大语言模型(LLMs)的成本可以远低于普遍预期。 模型利用公开数据集进行训练，任何实验室都能以较低成本进行模型微调。JetMoE-8B采用了一种稀疏激活的架构，使其在执行任务时只激活必要的参数，从而降低了运行成本。 技术细节 JetMoE采用稀疏激活架构，灵感来自ModuleFormer。JetMoE-8B包含24个块，每个块包含两个MoE层：注意力头混合（MoA）和MLP专家混合（MoE）。每个MoA和MoE层有8个专家，并且每个输入令牌激活2个专家。 JetMoE-8B的总参数量为80亿，训练数据为1.25万亿令牌，来源于公开可用的数据集。 具体方法：

稀疏门控混合专家（SMoE）架构 ：JetMoE-8B采用了一种基于MoE（Mixture of Experts）的架构，这种架构可以在不牺牲性能的情况下显著降低计算成本。在JetMoE-8B中，每个输入令牌只激活部分专家（expert），从而减少了总体的计算需求。具体来说，尽管总参数量为80亿，但每个输入令牌仅激活约22亿参数。 模块化设计 ：JetMoE-8B使用了由多个独立模块组成的架构，每个模块包含注意力机制和前馈网络（FFN）层，而每层又实现了基于专家的混合（MoE）。这种设计允许在每次推理时只激活一部分参数，减少了必须处理的数据量，从而节省了计算资源。 双层稀疏激活 ：JetMoE在注意力和前馈网络层都实现了稀疏激活，不同于传统的只在前馈层使用MoE的做法。这意味着在处理每个输入时，只有选定的“专家”参与计算，大大减少了操作的复杂度和所需的计算资源。 高效的训练策略 ：采用了有效的训练方法，如使用常数学习率预热和后期使用指数衰减学习率，以及精心设计的数据混合策略来优化模型训练。这种策略帮助模型在不同阶段集中学习最有价值的数据，从而提高学习效率和最终模型的性能。 数据选择 ：该模型完全使用公开可获取的数据集进行训练，避免了昂贵的数据采购成本。这包括从网站、学术论文、编程代码等多种来源收集的大量数据，这些数据来源都是免费或开源的。 两阶段训练法 ：第一阶段使用大量的开源数据进行预训练，设置一个恒定的学习率以及线性预热期；第二阶段则转向更具挑战性的数据集，采用指数衰减的学习率，以提高模型在特定任务上的表现。 优化的数据混合 ：在训练过程中，通过精心设计的数据混合策略来优化模型的学习，强调了从高质量数据中学习的重要性，特别是在学习率衰减阶段增加了这些数据的比重。 GPU优化和成本控制 ：项目组利用了高效的硬件配置，通过有限的GPU资源（30,000 H100 GPU小时）进行训练，同时优化了模型训练的时间和资源使用，确保了成本效益。 GPU使用优化 ：尽管训练了一个拥有数十亿参数的模型，项目组通过有效管理GPU使用时间（30,000小时H100 GPU），控制了训练成本。这包括了对训练任务的调度优化，使得每个GPU都能在最大效率下运行。 并行处理和负载平衡 ：采用流水线并行处理技术优化训练过程，减少了因专家不平衡导致的计算资源浪费。此外，通过在模型的不同部分之间均匀分配计算任务，确保了资源的充分利用。 训练情况 1. 预训练数据源 JetMoE-8B使用了广泛的开源数据集进行预训练，这些数据集包括： RefinedWeb : 从公共网页数据中提取的高质量文本数据，该数据通过MacroData Refinement (MDR)流程进行优化处理，以提升数据质量。 The Pile : 包含多种类型的数据，如Wikipedia文章、科学论文(arXiv)、开源图书等，总量达到825GB，涵盖广泛的知识领域和语言使用场景。 Code Datasets : 包括从GitHub上收集的各种编程语言的源代码，这些数据帮助模型理解和生成编程相关的内容。 Math and Scientific Data : 特别包括用于数学和科学问题解答的数据集，如数学问题集和科学文档。 2. 训练策略 JetMoE-8B的训练采用了两阶段方法，优化了学习过程中的数据使用和参数调整： 第一阶段（Warmup and Stable Learning Rate） : 使用大规模开源数据进行训练，目的是让模型掌握广泛的语言结构和知识。 应用线性预热和恒定学习率，使模型在初期可以稳定地适应各种语言模式。 第二阶段（Exponential Decay Learning Rate） : 在这一阶段，模型使用从第一阶段训练中筛选的高质量数据进行微调。 采用指数衰减学习率，加强模型在特定任务（如编程、数学问题解答）上的表现。 增加高质量数据的比重，这些数据通常来自更具挑战性的语言使用场景，能够进一步提升模型的性能。 3. GPU资源管理和优化 GPU时长管理 ：训练过程中使用了30,000 H100 GPU小时，通过精确控制每个训练阶段的GPU使用时长和任务调度，确保成本效益。 Pipeline并行处理 ：采用pipeline并行策略优化训练过程，减少了因数据传输和处理延时造成的资源浪费。 性能评估 在与Open LLM排行榜相同的评估方法下，JetMoE-8B的性能甚至超过了LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B。与具有类似训练和推理计算的模型（如Gemma-2B）相比，JetMoE-8B展示了更优异的表现。 完全开源 JetMoE-8B的代码和训练过程完全开源，包括详细的技术报告和训练细节，数据处理、模型架构和训练策略等， Github: https://github.com/myshell-ai/JetMoE HuggingFace: https://huggingface.co/jetmoe/jetmoe-8b Chat Demo on Lepton AI: https://www.lepton.ai/playground/chat?model=jetmoe-8b-chat 技术报告： https://arxiv.org/pdf/2404.07413.pdf

Menu

分类目录

JetMoE-8B：不到10万美元的训练成本性能却超越LLaMA2-7B

Related Posts

GetPickle AI是一款革新虚拟会议的AI工具让你的替身帮你开会你去干别的

Comfyui_Object_Migration：一致性换衣模型和工作流实物衣服一键穿上

ElevenLabs 推出构建语言对话AI代理的功能可使用其语音模型接入AI模型

Stripe 推出 Stripe Agent Toolkit：让 AI 代理能自动进行支付帮你购物、订机票等

Mistral AI 发布了全新的 Pixtral Large 开源模型超越 GPT-4o、Gemini-1.5 Pro 和 Claude-3.5 Sonnet

Perplexity 推出全新 AI 驱动购物助手：Shop Like a Pro 支持搜索结果一键下单

Recommendeds

阿里巴巴推出升级版AI翻译工具：Marco MT 性能超越Google、DeepL和ChatGPT

Google升级Gemini 1.5 Pro和即将推出新的 Gemini 1.5 Flash 模型以及Gemma 2

分析了1400万篇论文发现 2024年发布的研究论文中至少有10%使用了ChatGPT

Prompt 学习地图 23 | 人称误区 – 谁是“你”，谁是“我”

WeWe-RSS：一种更优雅的微信公众号订阅方式

微软Office全家桶大更新 Excel 中集成 Python 推出 Pages和Copilot Agents等众多功能

Spacetop：世界上首款 AR（增强现实）电脑 100 英寸大屏幕

Emilia 一个开源多语言高质量语音数据集包含六种语言超10万小时

MaskGCT：零样本文本到语音（TTS）模型支持跨语言配音、语音转换、情感控制等

Transformer-Lite：在手机 GPU上高效部署大语言模型

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

Menu

分类目录

JetMoE-8B：不到10万美元的训练成本 性能却超越LLaMA2-7B

Support authors and subscribe to content

加入会员

Related Posts

Recommendeds

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

JetMoE-8B：不到10万美元的训练成本性能却超越LLaMA2-7B