AMD计划打造120万颗GPU超级计算机

发布者:深铭易购     发布时间:2024-06-27    浏览量:--

【深铭易购】资讯:当前,数据中心对算力的需求正以惊人的速度增长。AMD透露,该公司计划打造一个多达120万颗GPU的超级计算机集群,此举被认为是为了与英伟达竞争。

AMD的这一表态来自于该公司执行副总裁兼数据中心解决方案事业部总经理Forrest Norrod。当被问及是否已接到关于120万颗GPU集群的咨询时,Forrest表示,这一表述几乎是准确的。

业界表示,通常来说,人工智能(AI)训练集群由几千个GPU构建,并通过高速互联能力进行连接。相比之下,拥有120万个GPU的集群几乎是不可能的。延迟、功耗和不可避免的硬件故障,将是构建这一集群需考虑的主要因素。

AI工作负载对延迟极为敏感,在这种情况下,如果某些数据传输比其他数据传输耗时更长,会干扰正常工作。此外,目前的超级计算机每隔几小时就会发生一次硬件故障,当规模扩大至目前已知最大集群的30倍时,这些问题将变得更加突出。

目前已知运行速度最快的超级计算机之一Frontier,其GPU数量“仅有”37888个。

关于数量多达百万颗GPU的构思,表明了2020年代AI竞赛的严肃性。Forrest Norrod没有透露哪个组织正考虑构建如此规模的系统,但他确实提到,有“非常清醒的人”正考虑花费数百亿乃至千亿美元在AI训练集群上。

注:图文源自网络,如有侵权问题请联系删除。