AMD，杀疯了

发布日期：2024-11-19 10:02 点击次数：107

（原标题：AMD，杀疯了）

如果您但愿不错时时碰头，宽宥标星保藏哦~

起头：内容详尽自nextplatform等，谢谢。

本周，亚特兰大 SC24 会议上热议的 11 月份 Top500 超等筹画机排名较 5 月份在德国汉堡 ISC24 会议上发布的 6 月份名单有了很大变化，而且正在安设的新机器也有一些真谛的进展。

天然，最大的新闻是，期待已久的“El Capitan”系统由惠普企业公司打造，选择 AMD 的羼杂 CPU-GPU 筹画引擎，现已参加运行，何况明见万里，成为名次榜上新的flopper。而且，它远远率先于好意思国的竞争敌手，以及中国传奇的百亿亿次级机器的规格。

El Capitan 的很大一部分（罢休撰写本文时咱们还不知谈它到底有多大），包括 43,808 台 AMD“Antares-A”Instinct MI300A 开导（左证咱们的筹画），已历程劳伦斯利弗莫尔国度实验室左证多样基准进行了测试，包括自 1993 年以来用于对超等筹画机进行排名的高性能 Linpack 测试。使用 HPL 测试的 El Capitan 部分的峰值表面性能为 2,746.4 petaflops，较着高于咱们预期的 2.3 exaflops 到 2.5 exaflops。（天然，这是针对 64 位精度的浮点运算而言的。）HPL 测试的峰值合手续性能为 1,742 petaflops，筹画后果为 63.4%。这是咱们对新加快系统进入市集时所祈望的后果水平（咱们的模范是 65%），咱们瞻望在 2025 年的后续排名中，El Capitan 将在基准测试中看法更多的表容貌量，因为该系统正在迟缓得到劳伦斯利弗莫尔的招供。

指示一下，MI300A 于 2023 年 12 月与其兄弟 MI300X（具有八个 GPU 芯片组，莫得 CPU 内核）沿路发布。MI300A 有三个芯片组，总共有二十四个“Genoa”Epyc 内核和六个 Antares GPU 流式多处理器芯片组，运行频率为 1.8 GHz。在 Cray EX 系统中，整个 MI300A 筹画引擎都通过 HPE 的“Rosetta”Slingshot 11 以太网互连相互市欢。一言以蔽之，在测试的 El Capitan 部分中，GPU 芯片组上有 105 万个 Genoa 内核和略低于 1000 万个流式多处理器。这理会需要处理巨额的并发。但这并不跋扈。位于中国无锡国度超等筹画中心的神威“太湖之光”超等筹画机自 2016 年以来一直位列 Top500 名次榜，于今仍是寰球第十五顽强的机器（至少在使用 HPL 测试的机器中），总共领有 1065 万个中枢。

在劳伦斯·利弗莫尔 (Lawrence Livermore) 于 SC24 进行简报之后，咱们将单独深切参谋 El Capitan 机器的架构，何况咱们将在这里连气儿到该故事。

每一份 Top500 榜单都是新旧机器的羼杂体，跟着新机器使用 HPL 进行测试，其整个者提交收尾，之前榜单上性能较差的机器将被淘汰，不再是 Top500 的一部分——即使它们仍在使用。此外，好意思国、欧洲和中国的许多机器并不将 HPC 模拟和建模手脚日常工作，但这些机器也被列入榜单，因为公司过甚 OEM 相助伙伴思要操纵榜单。通用集群上的 HPL 信息很真谛，但它会诬陷所谓超等筹画机的排名。说真话，咱们永恒以来只将 Top50 机器视为实在的超等筹画机，并一直在勤恳思出一些身手让这个排名更有用。

早在 6 月份，咱们就决定只关注榜单上的新进入者，试图以此手脚预计 HPC 范围发展情况的辩论。咱们将再次对 2024 年 11 月的排名进行细分，望望东谈主们最近购买和测试了什么。有一些真谛的趋势，咱们想象从面前运转以这种方式关注这些变化。

左证 2024 年 6 月的排名，Top500 榜单上有 49 台新机器，这些新机器在 64 位浮点精度下的总峰值性能为 1,226.7 petaflops，其中七台新超等筹画机（它们确乎是实施 HPC 工作的超等筹画机）基于 Nvidia 的“Grace”Arm 服务器 CPU 和“Hopper”H100 GPU 加快器，总峰值为 663.7 petaflops，占 2024 年 6 月榜单新增容量的 54.1%。使用 AMD Epyc 处理器与 Nvidia GPU 相皆集的系统占新筹画才智的另外 8.1%，使用 Intel Xeon 处理器与 Nvidia GPU 相皆集的系统占 2023 年 11 月下旬至 2024 年 6 月初安设并使用 HPL 测试的容量的另外 17.5%。另外还有 23 台全 CPU 机器，这些机器在许多 HPC 环境中出于软件兼容性的原因仍然是必需的，但这些机器的总筹画量仍然只占整个新 64 位浮点运算的 12.1%。

此次，在 2024 年 11 月的 Top500 排名中，AMD 在加多 HPC 基础容量方面是最大赢家。列表中有 61 台新机器，这里按筹画引擎架构排序：

此次，只须 4 台新的 Grace-Hopper 系统，限度很是适中，仅占名单上新机器总峰值性能 5,211.6 petaflops 的 3.8%。

不外，有 25 台新机器在主机上安设了 Intel Xeon CPU，并以 Nvidia GPU 手脚卸载引擎，这些机器所有领有 969.6 petaflops 的筹画才智，占榜单上新筹画总量的 18.6%。真谛的是，戴尔为我方制造了一台 5.3 petaflops 的机器，混名“钢铁侠”，将 AMD Instinct MI300A 加快器与 Intel Xeon CPU 配对。(为什么？) 还有 11 台机器领有复旧 Nvidia GPU 加快器的 AMD Epyc CPU 主机，峰值性能所有为 247.7 petaflops。归并后的 Nvidia GPU 机器占 2024 年 11 月 Top500 榜单新增总筹画量的 39%。

此次，El Capitan 过甚四款基于 MI300A 混总筹画引擎的微型同类家具有余打败了 Nvidia，FP64 性能达到 3,134.6 千万亿次浮点运算，占总筹画量的 60.1%，是现时 Top500 榜单中初度亮相的机型。这在很猛进度上要归功于意大利 Eni SpA 安设的 HPC6 机器（咱们在 1 月份写过这台机器），它基本上是安设在好意思国橡树岭国度实验室的“Frontier”超等筹画机的微型克隆版，11 月榜单中又加多了 619.3 千万亿次浮点运算，这是两台基于 AMD CPU 和 AMD MI250X GPU 的机器的功力。

一言以蔽之，AMD GPU 为 2024 年 11 月的排名孝敬了 72.1% 的新增性能。

面前，让咱们将眼光放宽到 11 月份的完整 Top500 榜单，并查抄榜单中整个 209 个加快系统。望望这个漂亮的树形图中是若何细分的：

上图中的框大小代表 HPL 的总体合手续推崇。

左上角的绿色区域以 El Capitan 和 Frontier 为基准，包括整个使用 AMD CPU 和 GPU 组合的机器。Nvidia Grace-Hopper 机器位于右上方，使用多样 Nvidia GPU 的机器位于蓝色、灰色和红色框中；Intel GPU 机器（少数）位于右下方的青色中，焦橙色机器是仅使用 CPU 的系统。

仅仅为了好玩，咱们左证加快器类型和总系统数目、峰值每秒万亿次浮点运算次数以及按架构离别的总中枢数对列表中的 209 台加快机器进行了排序。请看底下：

面前，使用英特尔“Ponte Vecchio”Max GPU 加快器的机器仅占 4 个系统（500 台中的 1.9%），但占峰值性能的 14%，其中绝大部分来自安设在阿贡国度实验室的“Aurora”系统。

有 183 台机器在职何主机上使用 Nvidia GPU，它们占 2024 年 11 月列表中已安设加快机器的 87.6%，但仅占 FP64 精度总峰值容量的 40.3%。有 19 台机器使用 AMD GPU 进行大部分筹画，这仅占加快机器的 9.1%。但这占 FP64 总峰值容量的 44.9%。收获于 El Capitan、Frontier、HPC6 和其他 16 台机器，AMD 面前在 Top500 榜单上在这方面打败了 Nvidia。

如果你查抄列表中的整个 500 台机器，加快系统占 2024 年 11 月列表中机器总额的 41.8%，所有 17,705 千万亿次浮点运算的 83.4%，以及总中枢数 1.286 亿个加崇高式多处理器的 55.4%。

突破百亿亿次级阻难比许多东谈主思象的要贫困得多，这主如果由于预算和功耗的适度，而不是任何潜在的期间问题。中国的百亿亿次级机器——“河汉三号”和“海洋之光”——尚未向 Top500 组织者提交讲求的 HPL 性能收尾，因此莫得排名，但它们标明，如果您不孤寒使用了几许电力或机器的资本，那么几年前在现场使用百亿亿次级机器不仅是可能的，而且也曾作念到了。（一年前咱们最佳的估量是河汉三号的峰值 FP64 性能为 2.05 百亿亿次浮点运算，而海洋之光的峰值为 1.5 百亿亿次浮点运算。）

Top500 榜单的末尾确乎很难跟上咱们往常对 HPC 系统所预期的对数图，而且咱们也莫得原理战胜，将来 10 百亿亿次浮点运算和更大的机器（如果它们竣事的话）会拉高同类平均水平。如果咱们思回到对数弧线上，机器必须变得更低廉，而即使每单元性能的资本不断下落，它们的价钱也在不断飞腾。

这一次，要进入 Top500，需要一台在 HPL 基准测试中至少有 2.31 千万亿次浮点运算的机器。进入 Top100 的机器是 12.8 千万亿次浮点运算。真谛的是，名单上的总体 HPL 性能为 11.72 百亿亿次浮点运算，高于 2024 年 6 月的 8.21 百亿亿次浮点运算、2023 年 11 月的 7.01 百亿亿次浮点运算和 2023 年 6 月的 5.24 百亿亿次浮点运算。这些大型机器正在莳植总体性能，但较小的 HPC 中心加多容量的速率不够快，无法在名单上的五百台机器上每两年翻一番。这可能与云表 HPC 的兴起相吻合，也可能不相吻合。如果莫得来自云构建者的一些数据，很难说。

“El Capitan”超等筹画机，独创先河

每隔几年，劳伦斯利弗莫尔国度实验室就会安设寰宇上速率最快的超等筹画机。值得行运的是，该 HPC 中心时常采用的机器不仅大概完成处理好意思国军方核火器库存的责任，而且还能采用大概推动超等筹画期间发展的多样期间。

历史告诉咱们，劳伦斯·利弗莫尔会作念到这些，而今天在 SC24 超等筹画机大会上发布的“El Capitan”系统，历史确乎在重演。但这一次略有不同，因为 El Capitan 是在地球历史上最大限度的超等筹画才智开发中启动的。

据咱们和劳伦斯利弗莫尔的群众所知，从许多辩论来看，El Capitan 不错与超大限度企业和云构建者为 AI 西宾运行而启动的大型机器相忘形。El Capitan 是一台成心为运行有史以来最复杂、最密集的模拟和建模工作负载而定制的机器，它赶巧在 GenAI 改变的中枢——新式大型说话模子方面推崇很是出色。

而且收获于 Cray 想象的“Rosetta” Slingshot 11 互连和惠普企业销售的 EX 系列系统的中枢组件，El Capitan 也曾选择了 HPC 增强型可彭胀以太网，这与超等以太网定约 (Ultra Ethernet Consortium) 试图鼓吹的期间阶梯相通，因为超大限度企业和云构建者厌倦了为他们的 AI 集群支付 InfiniBand 网罗的腾贵用度。

但也许更迫切的是——东谈主们对此接洽得不够——劳伦斯利弗莫尔将得到一台极其顽强的 HPC/AI 超等筹画机，而其价钱比如今的超大限度筹画公司、云构建商和大型 AI 初创公司支付的价钱要低得多。很难准确地说出两者之间的互异，但咱们初步桀黠筹画得出，El Capitan 每单元 FP16 性能的资本是 Microsoft Azure、Meta Platforms、xAI 和其他公司正在构建的大型“Hopper”H100 集群的一半。

手脚国度安全不行或缺的一部分，像 El Capitan 那样突破系统想象的架构极限，以及领有渴慕解释其在想象羼杂 CPU-GPU 筹画引擎方面的勇气，何况将超快的 HBM 内存输入到这些交融开导之间的分享内存空间，都有公正。

终末，El Capitan 与超大限度企业、云构建者和 AI 初创公司正在构建的野兽机器之间还有一个巨大互异。El Capitan 将处理核火器，而核火器反过来可能导致咱们星球上发生殒命级事件（或者左证你的不雅点，通过相互保证败坏原则幸免殒命），而 AI 集群自己等于可能导致地球发生殒命级事件的机器。（让咱们但愿 El Capitan 的 AI 处于顽强的沙箱中。）

好意思国库存中的核火器需要进行模拟，以确保其平淡运行——《阻截核西宾协议》阻截咱们通过引爆来说明其功能。还需要再行想象库存中的核火器并再讹诈用其火药，但阻截核西宾意味着这必须通过模拟才能完成。因此，好意思国动力部为超等筹画参加了无数预算。

2019 年 8 月，惠普企业 (Hewlett Packard Enterprise) 得到了价值数百万好意思元的 El Capitan 合同，那时咱们只知谈这台机器将使用 Slingshot 互连，资本约为 5 亿好意思元，并提供至少 1.5 百亿亿次浮点运算的合手续性能。就在几个月前，HPE 泄露将以 13 亿好意思元收购 Cray，咱们觉得，与好意思国动力部正在建造的三个百亿亿次级系统的强大物料清单比拟，Cray 的限度相对较小，这可能是 HPE 一运转就被“饱读舞”收购 Cray 的原因之一。

不管若何，那时，El Capitan 的合手续性能瞻望至少是 IBM 为实验室构建的“Sierra”羼杂 CPU-GPU 系统的 10 倍，何况功率范围为 30 兆瓦。2020 年 3 月，劳伦斯利弗莫尔泄露，它正在与 AMD 相助开发 El Capitan 的筹画引擎，并进一步泄露，该系统的峰值表面 FP64 性能将逾越 2 百亿亿次浮点运算——履行系统不错以 64 位分辨率进行筹画——功耗约为 40 兆瓦，资本不逾越 6 亿好意思元。（“升级！”）

El Capitan 羼杂 CPU-GPU 系统已在劳伦斯利弗莫尔安设并真实满负荷运行，东谈主们一致觉得这是寰宇上传统模拟和建模工作负载性能最高的系统。其中包括传奇中的中国“河汉三号”（2.05 百亿亿次浮点运算）和“海洋之光”（1.5 百亿亿次浮点运算）超等筹画机的峰值性能。

2022 年 6 月，劳伦斯利弗莫尔和 AMD 告示他们将选择交融的 CPU-GPU 开导（AMD 几十年来一直将其称为加快处理单元或 APU）手脚 El Capitan 系统的主要筹画引擎。从那时起，每个东谈主都在试图估量“Antares”Instinct MI300A 开导的时钟速率是几许，开导中有几许个 GPU 筹画单元，以及它们将以什么时钟速率运行。事实解释，咱们觉得 MI300A 的时钟会更高，因此需要更少的时钟才能达到性能。咱们还觉得，劳伦斯利弗莫尔得到的机器比预期的还要快，因此性价比致使比预期的还要好。

劳伦斯利弗莫尔国度实验室利弗莫尔筹画部门首席期间官 Bronis de Supinski 告诉The Next Platform，El Capitan 系统中共有 87 个筹画机架，还非凡十个额外的机架用于容纳其“Rabbit”NVM-Express 快速存储阵列，咱们早在 2021 年 3 月就详备先容过它。

El Capitan 在液冷 Cray EX 机架中总共领有 11,136 个节点，每个节点有四个 MI300A 筹画引擎，通盘系统共有 44,544 个开导。每个开导都有 128 GB 的 HBM3 主内存，由 CPU 和 GPU 芯片分享，运行频率为 5.2 GHz，可为 CPU 和 GPU 芯片提供所有 5.3 TB/秒的总带宽。

左证 11 月份 Top500 名次榜的数据，MI300A CPU 芯片组的运行频率为 1.8 GHz，而 AMD 规格表高慢 GPU 芯片组的峰值运行频率为 2.1 GHz。有三个“Genoa”X86 筹画复合体，每个复合体有八个中枢，总共 24 个中枢，选择台湾半导体制造公司的 5 纳米工艺蚀刻而成。MI300A 开导上的六个 Antares GPU 芯片组上有 228 个 GPU 筹画单元，总共有 912 个矩阵中枢和 14,592 个流处理器。在矢量单元上，MI300A 的峰值 FP64 性能为 61.3 万亿次浮点运算，在矩阵单元上，FP64 是其两倍，为 122.6 万亿次浮点运算。

每个 El Capitan 节点的峰值 FP64 性能为 250.8 teraflops，将整个这些节点市欢在沿路时，您将得到 2,792.9 petaflops 的 FP64 总性能，前端有 5.475 PB 的 HBM3 内存。CPU 和 GPU 筹画芯片下方有四个 I/O 芯片，用于将这些元素粘合在沿路并市欢到 HBM3 内存；这些芯片选择台积电的 6 纳米工艺蚀刻而成。

真谛的是，MI300A 封装上仍有六个筹画芯片（AMD 术语中为 XCD），它们与六个 GPU 芯片完好均衡。橡树岭的“Frontier”超等筹画机是 El Capitan 的姊妹机型，其定制“Trento”CPU XCD（单个芯片中每个节点八个）与四个自在的双芯片“Aldebaran”MI250X GPU 的比例亦然一比一。这种一比一封装在多代 Cray 超等筹画机的 CPU 和加快器之间一直保合手着，这可能并非未必。从某种好奇好奇上说，MI300A 是一个六路 X86 CPU 服务器，与六路 GPU 系统板交叉耦合。

底下是一个汇总表，高慢了 El Capitan 系统过甚位于劳伦斯利弗莫尔的 El Capitan 区块的“Toulumne”和“rzAdams”芯片以及位于桑迪亚国度实验室的“El Dorado”系统的进给和速率：

El Capitan 服务器节点的泄露图如下：

如您所见，有四个 Infinity Fabric x16 端口，具有 128 GB/秒的总带宽，以内存一致的方式将四个 MI300A 开导相互市欢。

另外还有四个端口，每个 APU 一个，来自 MI300A，不错设立为 PCI-Express 5.0 x16 插槽或 Infinity Fabric x16 插槽，在这种情况下，它们确立为前者，以允许插入 Slingshot 11 网罗接口卡，这些接口卡履行上通过 Slingshot 11 结构将通盘系统中的 APU 相互市欢起来。

终末，对于 El Capitan 系统的一个真谛的思法是，从期间上讲，该系统在用于运行用于对超等筹画机进行排名的高性能 Linpack 基准测试的那部分机器上的性能为 2,746.38 千万亿次浮点运算。（如果物理机器上总共有 44,544 个 APU，则该部分机器激活了 43,808 个 APU，占机器容量的 98.3%。）额定性能末尾的 46 千万亿次浮点运算（性能的第三和第四位灵验数字）比 2024 年 11 月 Top500 榜单上除 34 台机器除外的整个机器都要大。当您说“2.7 百亿亿次浮点运算”时丢弃的那些四舍五入数字真实与巴塞罗那超等筹画中心的“MareNostrum 5”超等筹画机的大小疏通。

如果 Lawrence Livermore 让 HPL 在系统中的整个 APU 上运行，El Capitan 的性能将再莳植 1.65%，咱们觉得，筹画、内存和互连相互作用的改良不错使其性能再莳植 5% 傍边。如果 Lawrence Livermore 大概将软件和网罗调优性能莳植 7.5%，那么该机器的峰值 HPL 容量将突破 3 百亿亿次浮点运算，咱们但愿实验室大概竣事这一标的，因为这很真谛。这将是五年前时势启动时 El Capitan 最初预期性能的两倍——而且按期按预算进行。

TensorWave 贪图打造寰球最大的 AMD GPU 集群

专注于 AMD 东谈主工智能硬件的高端云服务提供商 (CSP) TensorWave 告示正在开发基于 Team Red 魔法的寰球最大 GPU 集群，该集群由 Instinct MI300X、MI325X和MI350X加快器提供复旧。

TensorWave 贪图让 AMD 的家具更具竞争力，旨在冲破 NVIDIA 的操纵，贪图使用 MI300X、MI325X、MI350X AI 加快器制造千兆瓦级 GPU 集群。

TensorWave 在互联网上广为流传，主如果因为它对AMD 的 AI 加快器合手乐不雅格调，何况该公司的“AI 筹画”家具组合都围绕着 Team Red 的家具。TensorWave 的主要标的是“使 AI 民主化”，它与 AMD 站在沿路，并向潜在客户推论其“Instinct”系列 AI 加快器。

面前，左证 TensorWave 首席实施官 Darrick Horton发布的公告，该公司正在利用 Instinct MI300X、MI325X 和下一代 MI350X 加快器构建寰宇上“最大的”AMD GPU 集群。

TensorWave 贪图利用行将推出的 AI 集群竣事约 1 千兆瓦的“惊东谈主”功耗，这标明咱们应该期待 TensorWave 将来的时势具有顽强的筹画才智，尽管该公司面前尚未裸露更多细节。另一个值得一提的真谛事实是，TensorWave 贪图利用新推出的“超等以太网”互连模范，据说这是 AI 集群范围的不凡竣事。

当你看到 NVIDIA 在 AI 市蚁集占据如斯大的份额时，它确乎为 AMD 等公司创造了“看涨”态度，这些公司正在勤恳填补红队留住的空缺。固然说咱们看到的是一种“操纵市集”的神气并不为过，但 AMD 在保合手竞争力方面仍然任重道远，并不断完善其 AI 家具组合以诱骗市集兴致。

TensorWave 等 CSP 正在寻求让 AMD 在市集上占据主导地位，这等于为什么 Team Red 的 AI 范围仍然具有巨大的增漫空间，前提是该公司坚合手其一致性和贪图。

https://www.nextplatform.com/2024/11/18/el-capitan-supercomputer-blazes-the-trail-for-converged-cpu-gpu-compute/

https://www.nextplatform.com/2024/11/18/amd-now-has-more-compute-on-the-top500-than-nvidia/

https://wccftech.com/tensorwave-worlds-largest-amd-gpu-clusters-2025-instinct-mi300x-mi325x-mi350x-gpus-gigawatt-capacity/

半导体佳构公众号保举

专注半导体范围更多原创内容

关注寰球半导体产业动向与趋势

*免责声明：本文由作家原创。著作内容系作家个东谈主不雅点，半导体行业不雅察转载仅为了传达一种不同的不雅点，不代表半导体行业不雅察对该不雅点赞同或复旧，如果有任何异议，宽宥关系半导体行业不雅察。

今天是《半导体行业不雅察》为您分享的第3951期内容，宽宥关注。

『半导体第一垂直媒体』

及时专科原创深度

公众号ID：icbank

可爱咱们的内容就点“在看”分享给小伙伴哦

让建站和SEO变得简单

AMD，杀疯了

热点资讯

相关资讯