黄仁勋赠马斯克的3万块个人超算体验:算力强但带宽不足,需Mac Studio助力?

拓荒号:拓荒牛 (开说)

一台被称为“全球最小超算”的设备——NVIDIA DGX Spark,近日引发科技圈广泛关注。这款专为科研人员、数据科学家和学生设计的个人AI超级计算机,凭借其强大的性能和独特的定位,成为许多AI爱好者讨论的焦点。其售价约3万元人民币,官方宣称能够为桌面级AI开发提供强大支持,但实际表现究竟如何?

DGX Spark搭载了GB10 Grace Blackwell超级芯片,具备1 PFLOP的稀疏FP4张量计算能力,性能介于未来的RTX 5070和RTX 5070 Ti之间。其128GB统一内存可轻松运行千亿级别的大模型,但273 GB/s的内存带宽成为明显短板。这一限制导致设备在解码阶段表现平平,尽管算力强劲,但数据传输速度较慢,影响了整体体验。有用户形容其“脑子转得快,但嘴巴跟不上”。

评测数据显示,DGX Spark在处理1200亿参数的大模型时表现稳定,但在解码阶段的每秒生成词元数(TPS)仅为33.1,远低于高端游戏显卡RTX 5090的1800 GB/s带宽。这种差距在运行较小模型或低批次任务时尤为明显。例如,在批次大小为1的情况下,每秒解码词元数仅为20个,而当批次大小提升至32时,这一数值可上升至370。这表明,DGX Spark更适合处理大批量任务,但在单任务效率上仍有提升空间。

为了突破带宽限制,一些极客团队尝试了创新方案。EXO Lab团队将DGX Spark与Mac Studio M3 Ultra结合使用,利用后者819 GB/s的带宽优势,将大模型推理速度整体提升了2.8倍。他们通过流水线式分层计算与传输技术,使DGX Spark负责预填充阶段,而Mac Studio承担解码任务。这种“PD分离”模式虽然有效,但成本也大幅增加,两台设备组合的价格接近10万元人民币,显得过于奢侈。

尽管存在短板,DGX Spark的应用场景依然丰富。官方提供了超过20种开箱即用的玩法,涵盖视频生成、图像创作、工具调用和多智能体助手搭建等领域。例如,用户可以利用ComfyUI框架和阿里的Wan 2.2 14B模型生成视频,或通过LM Studio在本地运行大模型。设备运行时的噪音控制也受到好评,即使在高温下仍保持安静。

DGX Spark的出现,标志着个人AI计算设备进入了一个新阶段。它不仅为科研和开发提供了强大的工具,也引发了关于本地AI应用边界的思考。当每个人都能拥有一台超算时,我们究竟能用它做什么?这个问题或许比设备本身的性能更值得探讨。随着更多评测结果和使用指南的发布,DGX Spark的真实价值将逐渐清晰。


(科技责编:拓荒牛 )