家前瞻性思维超级计算17具有一些惊喜和未来的暗示

超级计算17具有一些惊喜和未来的暗示

2024

视频: La Voz De WNY (十月 2024)

在本月的Supercomputing 17会议上，有一些惊喜，包括PEZY-SC2加速器的出色展示，以及英特尔对其至强融核（Xeon Phi）系列产品方向的改变。此外，我们还看到了首批基于英特尔至强可扩展处理器（Skylake）构建的系统，以及首个采用Nvidia的Volta加速器的系统。

但也许最值得注意的是，有消息称，中国系统目前在最新的500强榜单中，占500台超级计算机中的202台，而美国只有143台。自从25年前成立以来，美国系统一直占据榜首，而几个月前，美国拥有169个系统，而中国只有160个。在综合性能方面也是如此，中国系统合计占35.4％。前500强系统的整体性能。

世界上最快的计算机仍然是数年来一直名列前茅的两台大型中国计算机：Sunway TaihuLight，来自中国无锡国家超级计算中心，其Linpack性能持续超过93 petaflops（9.3万亿亿浮点数）以及来自中国国家超级计算机中心广州的Tianhe-2，其持续性能超过33.8 petaflops。这些仍然是最快的机器，而且利润巨大。瑞士国家超级计算机中心的Piz Daint系统（使用Intel Xeons和Nvidia Tesla P100s的Cray系统）以19.6 petaflops的持续性能保持第三名。

顶部最大的变化是第四名的新系统：Gyoukou超级计算机的升级版，这是在日本海洋地球科学技术局部署的ZettaScaler-2.2系统。该机器使用PEZY-SC2加速器（第二代2048核芯片）以及传统的Intel Xeon处理器，可在双精度条件下提供4.096 teraflops的峰值性能，总共可使用19, 860, 000个内核。（较早的配备PEZY-SC2的ZettaScaler机器在6月版本中的列表较低）。迄今为止，这使它拥有最多的核心数量，也被称为最高的并发级别，超过了拥有1060万个核心的TaihuLight。 Gyoukou机器的Linpack持续性能达到了19.14 petaflops，但有趣的是它使用1.35兆瓦的功率，而PizDaint为2.27兆瓦，Tinahe-2为17.8兆瓦，Taihulight为15.4兆瓦。这仍然是一个强大的功能，但是与其他系统相比，它的耗电量却大大减少了，并且有力地表明，即使对于世界上最快的机器，功耗问题也很重要。还值得注意的是，这表明新架构如何显着降低功耗。

美国最高的系统仍然是橡树岭国家实验室（Oak Ridge National Laboratory）的Titan超级计算机，该系统已有5年的历史，使用Nvidia K20x GPU加速器并提供17.59 petaflops，目前排名第五。

在最新的Green 500最节能超级计算机列表中，前五名中的四名（包括前三名）被分配给新安装的日文系统，这些系统均基于ZettaScaler-2.2架构和PEZY-SC2加速器。其中最有效的是首部系统B，该系统安装在RIKEN的计算和通信高级中心。首部系统B达到17.0吉瓦/瓦；首部系统B和接下来的两个系统（分别使用16.8和16.7吉瓦/瓦）均在前500名名单的后半部分。在绿色排行榜上排名第五的系统是上述的Gyoukou系统，在前500强中排名第四，为14.2吉比特/瓦。

这些是PEZY-SC2加速器的重大突破，可能会为超级计算架构指明未来的方向。

第四台最环保的超级计算机是Nvidia内部的DGX SaturnV Volta系统，该系统达到15.1吉比特/瓦，在全球500强中排名第149。该系统具有22, 440个Volta内核（似乎在列表上与其他一些内核有所不同）。Nvidia的加速器发展非常顺利，并且对使用Volta的更多机器寄予厚望。 GPU架构。

像往常一样，主要供应商都渴望获得成功，英特尔指出，其CPU在前十大系统中排名第六，在500个系统中最高达到471个。英特尔还指出，其新的至强可扩展处理器位于18台超级计算机中，性能超过25 petaflops。但更值得注意的是，英特尔表示将取消Knights Hill，后者是计划中的14nm Knights Landing Xeon Phi处理器的10nm继任者。该公司表示，现在正计划在2021年之前为百亿美元级系统（1, 000 petaflops）建立一个新平台，但未透露任何细节。

英伟达强调说，它拥有34款新系统，其加速器在榜单上，从而使该公司的总数达到了87家。英伟达及其合作伙伴IBM担心，到下一个清单在6月发布时，橡树岭的Summit机器才有可能。国家实验室（ORNL）应该位于列表的顶部。该机器具有4600个节点，每个节点带有两个IBM Power 9基本CPU和6个Nvidia Volta加速器，预计性能约为200 petaflops。这与Nvidia的内部解决方案不同，因为CPU和GPU都使用OpenCAPI以缓存一致的方式通过NVLink 2.0进行通信，因此GPU可以直接访问主系统RAM。峰会之后，Lawrence Livermore国家实验室的Sierra机器和日本的AI Bridging Cloud Infrastructure（ABCI）机器将紧随其后。

我很想听到Cray宣布基于64位Armv8-A架构，基于Cavium ThunderX2处理器的“生产就绪”超级计算机，该计算机现已作为其XC50超级计算机的一部分提供。基于ARM的计算机正在巴塞罗那超级计算机中心（其Mare Nostrum机器现在在世界500强排名中排名第16）以及日本的“ Post-K”超级计算机和英国的Isambard超级计算机中进行测试。 Cavium在ThunderX2上有一些早期的基准测试，该测试表明14nm芯片在多线程或内存绑定应用程序上的性能要比Intel的Skylake Xeons更好，尽管Intel仍是单线程和原始teraflops的领导者。请注意，除了Cavium设计之外，高通还宣布了一种基于ARM的服务器芯片Centriq。

在其他处理器新闻中，AMD宣布已提高其Epyc处理器的产量，尽管尚未在前500强系统中使用这些处理器，而NEC宣布为其新SX-Aurora TSUBASA超级计算机系列使用其Vector Engine PCIe加速卡的版本。具有特别快的内存带宽。

在互连方面，Mellanox表示，在“全球500强”中有77％的新系统使用InfiniBand，而英特尔则以其Omni-Path架构大获成功，该架构主要用在至强可扩展处理器（Skylake）系统中。同时，许多供应商都在寻求Gen-Z，Gen-Z被设计为一种低延迟，以内存为中心的方法，用于计算与内存/存储设备之间的超高速连接。

另外，有趣的是，这是全球500强中的所有机器第一次都在运行Linux。

从PEZY-SC2的强大第一印象到英特尔决定将Knights Mill换成Nvidia的Volta等新架构，再加上AMD，ARM供应商和NEC的新竞争，现在是超级计算领域激动人心的时刻。明年的清单应该非常有趣，因为我们看到了哪些架构真正发挥了作用，哪些效率最高，这是因为许多供应商和超级计算机站点都试图在竞争中发展具有百亿分之一秒的百亿美元（1000 petaflop）计算机。 -20兆瓦的功耗。

对您的宽带互联网速度感到好奇吗？立即测试！