中国LineShine超级计算机登顶全球榜首——内部无一美国芯片

全球最快的超级计算机如今属于中国,,而且内部没有一块美国制造的芯片。LineShine安装在深圳国家超级计算中心,在2026年6月TOP500榜单上以2.198 exaflops(双精度)的持续性能荣登榜首,这一成绩基于High Performance Linpack(HPL)基准测试。这比此前纪录保持者,,劳伦斯利弗莫尔国家实验室的El Capitan,,快了约22%。

这是自2017年以来中国首次重返全球超算排名之巅,当年神威·太湖之光以仅93 petaflops的成绩位居首位,,LineShine的速度大约是它的24倍。但这台机器的意义远不止于基准测试分数。LineShine是对旨在减缓中国先进计算能力的美国出口管制的直接挑战,其架构代表了一种从根本上不同的百亿亿次计算方式。

全部CPU,无GPU

如今大多数顶级超级计算机,,包括El Capitan、Frontier以及未来将出现的美国系统,,都依赖GPU加速器来实现峰值性能。来自Nvidia或AMD的GPU负责科学计算的大规模并行处理,而CPU则协调工作流程。LineShine完全不使用GPU。

取而代之的是,LineShine的92个机柜内安装了40,960颗定制LX2处理器,每颗包含304个运行在1.55 GHz的Armv9核心,,总计13,789,440个核心,约1400万核。LX2普遍被认为来自华为,这家中国电信巨头于2019年被列入美国实体清单。通过授权Armv9指令集(来自英国Arm Ltd,一家不受美国芯片制造商同样限制的公司)并将可扩展向量扩展(SVE)和可扩展矩阵扩展(SME)单元直接集成到每个核心中,LX2可以在同一处理器上同时运行传统科学计算(FP64)和AI工作负载(BF16、FP16、INT8),,无需在独立的CPU和GPU内存空间之间传输数据。

这种方法消除了计算机架构师所谓的”内存墙”,,通过慢速互连在CPU和GPU之间传输数据的瓶颈。LineShine的1400万个核心中的每一个都可以访问同一块一致性内存空间。对于混合物理模拟和机器学习的工作负载,这种统一架构可能是革命性的。

该系统还在HPCG(高性能共轭梯度)基准测试中以22.00 petaflops的成绩位居第一,,这是对内存受限科学计算更现实的衡量标准,,并在混合精度HPL-MxP基准测试中以7.92 exaflops位列第四。从HPL到HPL-MxP仅3.6倍的适度加速证实了这从根本上是一个全CPU设计;配备专用GPU加速器的系统在混合精度任务上可显示10-20倍的加速。

硅片上的政治宣言

中国大约在2023年左右停止向TOP500排名提交系统,担心披露性能数据可能为美国的制裁策略提供信息。在此期间,几个中国的百亿亿次系统,,神威·海洋之光(估计约1.22 exaflops)和天河三号(约1.57 exaflops),,出现在学术出版物中,但从未经过官方基准测试。因此,LineShine的提交不仅仅是一项技术公告:它是一个战略信号,表明中国可以在没有美国组件的情况下在全球高性能计算的最高水平上竞争。

“部分原因是美国以国家安全为由限制向中国出口GPU,因此它由中国零件制造,”《自然》杂志报道,总结了一个核心矛盾。2022年和2023年的美国出口管制特别针对先进GPU,,Nvidia的A100、H100和B200,AMD的MI250和MI300,,这些GPU对科学计算和AI训练都至关重要。LineShine的全CPU设计完全规避了这些限制。

LX2处理器是采用7纳米还是5纳米工艺制造的,以及由哪家代工厂生产,至今仍未公开,,这正是芯片情报分析师最想了解的信息。

天气、材料以及物理与AI的融合

清华大学的付昊桓(Haohuan Fu)在《自然》杂志的引述中描述了该系统的潜力:”像LineShine这样的系统使得在更大规模、更高分辨率和更高速率下研究复杂的自然和工程系统成为可能。更重要的是,它们使我们能够以更集成的方式将物理知识和数据驱动的AI结合在一起。”

arXiv(2605.24896)上的一篇预印本展示了该架构的实际应用,运行CAPES,,一个用于东亚夏季降水的百亿亿次混合数值-AI集合预报系统。CAPES将174个基于物理的数值天气预报模型成员与1,600个AI生成的成员相结合,在仅14.6小时内完成了10年的后报模拟(2016年至2025年)。这种紧密耦合的数值-AI工作负载,,无法在传统CPU-GPU混合系统上高效运行,,正是LineShine统一架构的设计目标。

其他已展示的应用包括磁性材料原子尺度模拟,系统设计者指出了在气候建模、计算流体动力学和药物发现方面的潜力。

注意事项

LineShine的42.2 MW功耗是前十系统中最高的,使其能效比为52.07 gigaflops/瓦,,相比之下El Capitan为60.9 gigaflops/瓦。这使得它在Green500榜单上排名第50位,落后于El Capitan和Frontier。该系统性能强大,但按顶级标准来看效率并不高。

对于纯AI训练工作负载,Google、Meta和OpenAI的大型GPU集群可能仍然更快。正如田纳西大学顶尖超算专家Jack Dongarra告诉《自然》杂志的那样:”登顶排名并不一定意味着LineShine在所有科学或AI应用中都是世界上最快的计算机。”TOP500衡量的是双精度Linpack,而不是实际AI训练吞吐量,,LineShine在混合精度基准测试中的第四名表明,其AI性能虽然令人印象深刻,但仍落后于最大的基于GPU的系统。

未来展望

LineShine代表了纯CPU百亿亿次计算的概念验证,,随着中国GPU供应受限,这一架构赌注显得越来越有先见之明。这种方法能否扩展到下一代泽塔级系统仍然是一个悬而未决的问题。LX2的304核处理器正在挑战硅芯片扩展的极限,进一步的发展将需要更高效的封装、中国可能尚未获得的先进光刻技术,或重新引入加速器的混合架构,,这一次,将是国产制造。

目前,2026年6月TOP500榜单的头把交椅属于深圳。这台机器名为LineShine。它没有任何美国零件。

婷 翻译


来源:

[Nature News] “China’s LineShine just topped the global supercomputer ranking: what you need to know.” Nature,2026年6月。https://www.nature.com/articles/d41586-026-02047-w

[TOP500] 2026年6月榜单。https://www.top500.org

[arXiv] “CAPES: Exascale Hybrid Numerical-AI Ensemble Forecasting.” arXiv:2605.24896,2026年。

Scroll to Top