如果您希望可以时常见面,欢迎标星收藏哦~
特征生成式人工智能模型不仅在过去两年中人气爆棚,而且增长速度惊人,需要越来越多的加速器才能跟上。
如果机器学习没有取得突破,而且功率成为限制因素,人工智能的持续发展可能最终取决于一种新型的超级计算机,这种计算机可以覆盖整个国家,甚至可能覆盖整个大陆。
这里的想法相当简单。如果构建更大的数据中心不再可行,那么就开始将现有的数据中心拼接起来。
这显然是行业的发展方向。“分销是不可避免的,”Dell'Oro 分析师 Sameh Boujelbene 告诉The Register。
她并不是唯一一个这么想的人。Nvidia 的网络高级副总裁 Gilad Shainer 相信“在下一代中,你将看到能够将这些远程数据中心真正地整合在一起,形成一个大型的、虚拟的、单一的数据中心。”
在高性能计算领域,将大量工作负载分配到多台机器上并不是什么新鲜事。这基本上是每台现代超级计算机的工作方式,它们使用 Nvidia 的 InfiniBand 或 HPE 的 Slingshot 等高速互连将数千个节点连接在一起。
从许多方面来看,在多个数据中心分配工作负载是现有模型的扩展,尽管它也有自己独特的挑战需要克服。
好消息是,至少在某种程度上,将数据中心连接在一起所需的基础设施已经存在。高速数据中心互连 并不新鲜,并且已被主要云提供商广泛采用。
对于更传统的科学工作负载,Nvidia 和之前的 Mellanox 都推出了MetroX系列产品,该产品使用密集波分复用技术在长达 40 公里的跨度内跨多个数据中心桥接 InfiniBand 计算结构。
不幸的是,这些设备的最新一代是在 2022 年底发布的,就在 ChatGPT 引发 AI 淘金热的几周前。因此,它更适合灾难恢复和高可用性,而不是聊天机器人首次亮相以来的那种大规模 AI 训练。
据 Shainer 介绍,目前已经在进行研究将这一范围从几十公里扩大到几千公里,这无疑将有助于解决电力挑战,因为不同地区的数据中心可以作为一个整体运行。
然而,人工智能工作负载的性质以及所涉及的巨大距离也带来了自身的挑战。
平衡延迟和带宽
一般来说,AI 工作负载喜欢带宽,讨厌延迟。在数据中心内,大部分挑战都围绕着数据包丢失或连接停滞,导致计算在重新传输数据时处于闲置状态。据 AMD 称,平均有 30% 的训练时间花在等待网络赶上。
为了克服这些限制,人们开发了许多技术。Nvidia 的 InfiniBand 就是其中之一,但也有专门的数据处理单元和 AI 优化交换机出现,以应对以太网带来的这些挑战。
说到数据中心到数据中心的网络,延迟是不可避免的事实。光在玻璃纤维中的传播速度非常快,大约为每公里 4.9 微秒。这已经相当快了,但在 1,000 公里的跨度中,往返时间接近 10 毫秒,这还不包括协议和处理开销。在这种跨度中,重传的问题更加严重。
根据所涉及的带宽和距离,可能需要中继器和放大器来增强信号,这可能会加剧问题。然而,光学供应商 Ciena 的研究网络首席技术专家 Rodney Wilson 告诉El Reg ,一些新兴技术即将出现,可以帮助解决这一问题。
其中一种是空芯光纤,它有助于通过减少所需中继器的数量来抑制延迟。空芯光纤的缺点是它仍然相对较新,而且地下已经有大量暗光纤。
延迟并不是唯一的问题;带宽是另一个问题。在数据中心内,用于连接 GPU 服务器的横向扩展网络通常具有八个 400Gbps 链路,总带宽为 3.2 Tbps。如果您尝试在 DCI 上扩展此横向扩展网络,则需要多个 PB 的总带宽。
Wilson 表示,运营商网络中使用的现代光学器件现在支持每波长高达 1.6Tbps 的带宽。如果使用多个波长,那么光纤束就相当大。
好消息是,Shainer 认为,许多延迟和带宽问题都可以通过软件优化来缓解。根据您在数据中心之间分配工作负载的方式,可以隐藏延迟,同时最大限度地减少所需的带宽。
例如,如果你想在两个物理上不同的集群上运行训练工作负载,那么你需要以在数据中心完成计算的方式分配工作负载,并且仅在合并结果时才通过数据中心互连发送该数据,他解释说。
“你运行任务的方式决定了数据中心之间需要多少带宽,”他补充道。“这可能是总横向扩展网络带宽的 10%......这取决于你如何构建网络。”
实际情况
虽然概念相对简单,但多数据中心训练也面临着许多需要克服的障碍。
理想情况下,Shainer 解释说,你会希望你的数据中心是同质的 - 也就是说,它们应该使用相同的计算架构 - 以避免瓶颈。
Nvidia 已经通过其 DGX 和 SuperPod 参考设计为此奠定了基础。理论上,这些设计应该可以帮助数据中心运营商避免处理不平衡的计算架构带来的麻烦。
然而,如果维护多个千篇一律的数据中心不切实际,而你不得不让老一代的计算与新一代的计算协同工作,Shainer 指出这仍然可以做到;只是效率不一定会那么高。“最老的一代将决定最新一代的性能。”
可能也不会只有两个数据中心分担负载。为了实现路由的冗余和多样性,可能需要将多个数据中心互连成网状网络。
威尔逊解释说,这是因为在这些长距离上,流量可能会通过运营商网络传输,而运营商网络可能会因多种现象而中断。
“我正在研究一种能够提供多条路径的智能网状基础设施,然后是一种能够提供自适应网络的软件覆盖,可以对这些流量进行某种控制,”他解释道。
Wilson 补充道,理想情况下,网络将由机器或应用程序主动调整,而不是依赖于被动路由。“当网络出现问题时,如果是流量限制或其他障碍,它必须具有足够的适应性,能够自我修复、自我检测、自我修复并相应地重新路由或重新平衡。”
时间问题
在多个数据中心之间分配 AI 工作负载的需求可能是不可避免的;问题仍然是,什么时候才是必要的。
虽然功率限制了数据中心可以塞入多少个 GPU,但它并不一定限制模型的训练规模,而只是限制了训练速度。假设您不受内存限制,您可以使用五位数的 GPU 来训练大型模型;只是需要更长的时间。
对于这些大型集群来说,这似乎是自然的稳定期。然而,随着集群规模的扩大,它们也变得越来越成问题。在真正大型的集群中,平均故障时间 可能相当短,集群规模越大,中断就越严重。
在训练 Llama 405B 时,Meta每三个小时就会出现一次故障,其中超过四分之三与硬件问题有关,58% 直接归因于 GPU 问题。
因此,随着集群变得越来越大,您越快完成作业就越好,因为它可以最大限度地减少下一个检查点之前出现故障的可能性。
不幸的是,随着 AI 模型每年以 4 到 5 倍的速度增长,并且 GPU 需要更多功率才能实现代际性能,这些系统超越单个数据中心的范围似乎只是时间问题。
半导体精品公众号推荐
专注半导体领域更多原创内容
关注全球半导体产业动向与趋势
今天是《半导体行业观察》为您分享的第4017期内容,欢迎关注。
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦
声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。