您所在的位置：首页 - 科普 - 正文科普

将构建全球最大训练集群，集成万片

锦斯 2024-07-02 【科普】 358人已围观

摘要6月26日消息，据TheNextPlatform报道，近日AMD执行副总裁兼数据中心解决方案集团总经理ForrestNorrod在接受采访时表示，AMD将助力构建全球最大的单体人工智能（AI）训练集群，将集成高达120万片的GPU。120万片GPU是一个非常惊人的数字，要知道目前全球最强的超级计算机Frontier所配备的GPU数量才只有37888片，这也意味着AMD所支持的AI训练集群的GPU规模将达到Frontier的30多倍。不过，将构建全球最大训练集群，集成万片ForrestNorrod

6月26日消息，据TheNextPlatform报道，近日AMD执行副总裁兼数据中心解决方案集团总经理ForrestNorrod在接受采访时表示，AMD将助力构建全球最大的单体人工智能（AI）训练集群，将集成高达120万片的GPU。

120万片GPU是一个非常惊人的数字，要知道目前全球最强的超级计算机Frontier所配备的GPU数量才只有37888片，这也意味着AMD所支持的AI训练集群的GPU规模将达到Frontier的30多倍。不过，将构建全球最大训练集群，集成万片ForrestNorrod没有透露哪个组织正在考虑构建这种规模的AI系统，但确实提到“非常清醒的人”正在考虑在AI训练集群上花费数百亿到数千亿美元。

目前的AI训练集群通常由几千个GPU构建而成，这些GPU通过跨多个服务器机架或更少的高速互连连接。如果要创建一个拥有高达120万个GPU的单体AI集群，意味着将会面临极为复杂的高速互连网络，并且还会有延迟、功耗、硬件故障等诸多的问题，这似乎是难以实现的。

比如，AI工作负载对延迟非常敏感，尤其是尾部延迟和异常值，其中某些数据传输比其他数据传输花费的时间要长得多，并且会中断工作负载。此外，当今的超级计算机也会面临每隔几个小时就会发生的GPU或其他硬件故障。当扩展到当今最大的超级计算机集群的30倍时。更为关键的是，如此庞大的AI训练集群，将会产生极为庞大的能耗，不仅稳定的供电将会是一个大难题，而且配套的散热解决方案也面临巨大挑战。

编辑：芯智讯-浪客剑

Tags：龙卷风网络收音机

上一篇：周荣华周荣敏，主动交代问题！两人为亲兄弟

下一篇：加皇资本市场维持波音买入评级，维持目标价美元

您所在的位置：首页 - 科普 - 正文科普

将构建全球最大训练集群，集成万片

最近发表

站长推荐

编程中strncpy是什么意思

目录[+]