
NVIDIA今日正式宣布其Rubin AI平台,这将成为下一代数据中心的核心,性能比Blackwell提升5倍。
今天,NVIDIA正式公布Rubin平台,这一消息颇为意外,因为原本大家都期待公司已宣布的GTC大会上会有更新。随着AI领域的快速发展以及CES上关于AI的热议,NVIDIA决定提前一点揭开其宏大的AI平台面纱。
NVIDIA的Rubin平台由六颗芯片组成,全部已回到晶圆厂并进入NVIDIA实验室进行测试。这些芯片包括
所有芯片组合在一起,使Rubin平台能够在DGX、HGX和MGX系列系统中运行。每个数据中心的核心是NVIDIA Vera Rubin超级芯片,内含两颗Rubin GPU、一颗Vera CPU以及大量HBM4和LPDDR5x内存。NVIDIA Rubin技术的亮点包括
先说Rubin GPU,这颗芯片采用双光刻块设计,拥有大量计算单元和张量核心。芯片专为AI密集型工作负载打造,提供50 PFLOPs的NVFP4推理性能、35 PFLOPs的NVFP4训练性能,分别比Blackwell提升5倍和3.5倍。芯片还配备HBM4内存,单芯片带宽最高达22 TB/s,较Blackwell提升2.8倍;每颗CPU的NVLink带宽为3.6 TB/s,提升2倍。
关于Vera CPU,NVIDIA采用了代号为Olympus的下一代自研Arm架构,芯片内置88个核心、176条线程(支持NVIDIA Spatial Multi‑Threading),拥有1.8 TB/s的NVLink‑C2C一致性内存互连、1.5 TB系统内存(相当于Grace的3倍)、1.2 TB/s的SOCAMM LPDDR5X内存带宽,并支持机架级机密计算。整体算力、压缩和CI/CD性能均比Grace提升2倍。
NVLink 6交换芯片为Rubin平台提供网络结构,支持400G SerDes、每CPU 3.6 TB/s全互联带宽、总计28.8 TB/s带宽、网络内14.4 TFLOPS的FP8计算,并采用100%液冷设计。
网络方面采用最新的ConnectX‑9和BlueField‑4模块。ConnectX‑9 SuperNIC提供1.6 TB/s带宽,配备200G PAM4 SerDes、可编程RDMA和数据路径加速器,具备顶级安全性,并针对大规模AI进行优化。
BlueField‑4是一款800G DPU,用作SmartNIC和存储处理器。它集成了64核Grace CPU与ConnectX‑9,网络能力比BlueField‑3提升2倍,计算提升6倍,内存带宽提升3倍。
所有这些组件在NVIDIA Vera Rubin NVL72机架中汇聚,与Blackwell相比实现了以下显著提升
NVIDIA还发布了Spectrum‑X以太网同封装光学解决方案,提供102.4 Tb/s的可扩展交换基础设施、同封装200G硅光子,并在规模化时实现95%的有效带宽。该系统效率提升5倍,可靠性提升10倍,应用运行时长提升5倍。
针对Rubin SuperPOD,NVIDIA推出了Inference Context Memory Storage平台,专为千兆级推理设计,完全集成了NVIDIA的Dynamo、NIXL和DOCA等软件生态。
总结来看,NVIDIA将在其最前沿的DGX SuperPOD中部署Rubin平台,共计8个Vera Rubin NVL72机架。此外,还将推出面向主流数据中心的NVIDIA DGX Rubin NVL8。
凭借这些进步,Rubin平台在推理令牌成本上比Blackwell GB200降低10倍,训练MoE模型所需GPU数量降低4倍。Rubin生态系统得到众多合作伙伴的支持,已进入全面量产阶段,首批芯片将在今年晚些时候交付给客户。
)