2个包含 24000GPU的集群 Meta 正在打造一套超大规模的人工智能计算平台

Meta 正在打造一套超大规模的人工智能计算平台，他们宣布推出了两个包含 24000GPU 的集群。这些不是普通的计算资源，而是高端的 NVIDIA H100 GPUs，这些集群专为 AI 工作负载设计，以实现高吞吐量和可靠性。预计到 2024 年底，Meta 计划将这些资源扩展到惊人的 350000 个 GPU，这将提供相当于近 600,000 H100 的计算能力。

这项投资的目的不仅仅是为了增加计算力。Meta 还采用了开放的设计哲学，利用了开源技术，如 Grand Teton 硬件平台、OpenRack 服务器架构和 PyTorch 深度学习框架，这意味着他们正在推动整个行业的技术进步，而不仅仅是自家的发展。

特别的是，Meta 设计了两种高效的网络解决方案来连接这些 GPU，确保数据可以快速且可靠地在这个庞大的系统中传输。为了存储海量的数据，Meta 还开发了高效的存储系统，支持快速保存和加载数据，这对于训练复杂的 AI 模型至关重要。

这些集群的目的是支持 AI 的下一波创新，包括但不限于开发新一代的大型语言模型如 Llama 3。Meta 希望通过这些先进的计算资源，加速人工智能技术的研究和开发，推动人工通用智能（AGI）的实现，即能够执行各种智能任务的 AI。

Meta 的 GenAI 基础设施计划主要包括以下几个方面：

GPU 集群规模 ：Meta 宣布了包含 24,000 GPU 的两个集群，并计划到 2024 年底将其基础设施扩展至包含 350,000 NVIDIA H100 GPUs。提供近 600,000 H100 的计算能力。

硬件平台 ：这些集群使用了 Meta 自家设计的开放 GPU 硬件平台——Grand Teton，并已将其贡献给了开放计算项目（Open Compute Project, OCP）。体现了 Meta 对开放计算和开源的承诺，旨在推动整个行业的开放创新。Grand Teton 建立在多代 AI 系统的基础上，整合了电源、控制、计算和织物接口于单一机箱中，以提高整体性能、信号完整性和热性能。

支持先进 AI 模型开发 ：这些集群旨在支持当前和下一代 AI 模型，包括 Llama 3 等，以及 GenAI 和其他领域的研究和开发工作。 AI 研究加速器（RSC） ：Meta 的 AI 研究加速器（RSC）特别在 Llama 和 Llama 2 的开发以及其他高级 AI 模型的应用中起到了重要作用。新的 AI 集群在 RSC 的基础上进一步发展。 网络解决方案 ：Meta 构建了两种网络解决方案。一种基于 Arista 7800 的远程直接内存访问 (RDMA) 覆盖以太网 (RoCE) 网络织物解决方案，另一种是采用 NVIDIA Quantum2 InfiniBand 织物。这两种解决方案都连接了 400 Gbps 的端点，为大规模训练提供了必要的网络支持。

存储解决方案 ：Meta 的存储部署通过使用基于 Meta “Tectonic” 分布式存储解决方案的家族 Linux 文件系统 (FUSE) API，以及与 Hammerspace 合作开发的并行网络文件系统 (NFS) 部署，满足了 AI 集群的数据和检查点需要。这些解决方案使得成千上万的 GPU 能够以同步方式保存和加载检查点，并为数据加载提供了灵活和高吞吐量的 exabyte 级存储。