AI大模型时代 哪些关键存储技术成为“算力竞争”的基石

过去半年以来,以 DeepSeek 等大语言模型在各行各业的应用与普及为例,AI 大模型发展浪潮席卷全世界,并在图像识别、内容生成、创意设计、辅助开发、对话等领域展现出无尽可能。

经历了卷积神经网络模型 ( CNN ) 、自注意力模型 ( Transformer ) 等阶段,目前 AI 大模型正在不断升级学习能力,往多模态、扩展上下文等方向进一步发展,这对模型运算量与训练数据集都提出了更高要求。而对整个 AI 算力硬件生态而言,除最核心的算力芯片外,存储、通信 ( 传输 ) 技术同样成为支撑 AI 大模型进化与应用的基石。

那么我们今天就着眼于存储领域,一起了解哪些关键、新锐的存储技术,能够服务于行业级的 AI 大模型发展与综合应用。

高带宽内存 HBM:半导体工业皇冠上又一颗明珠

NVIDIA CEO 在过去数年经常提到“摩尔定律已死”,当时多数人理解其意指半导体的制程工艺逼近极限,且普遍带来成本失控,此类因素成为传统计算性能发展的瓶颈。而在 AI 大模型的时代重新审视这一观点,我们看到的则是大模型的训练需求,与单位成本算力增长的不匹配等现象。

面对现实的压力,AI 行业从多种路径展开探索,避免让摩尔定律成为“逐渐收紧的枷锁”,由此诞生了模型量化训练、稀疏化、新模型架构等突破算力束缚的创新,我们熟悉的 DeepSeek 也是其中闪耀的成果之一。

存储领域也面临相似的压力,而传统的 SRAM、DRAM 存储在容量、带宽上的性能迭代不仅落后于 AI 对算力的需求,甚至也没能赶上相邻两代芯片间算力的迭代。很多时候 AI 训练的瓶颈往往不在芯片本身的运算能力,而在于数据从存储子系统传输至运算单元的过程。

因此,行业将目光放在 2013 年就已亮相的 HBM 技术上。

诞生于十多年前的 HBM 可以说长期处于不温不火的状态,这可能是因为它在当时有点超前了:相比常规的 DRAM 内存,HBM 采用垂直堆叠排列的多片 DRAM 芯片,并使用硅通孔 ( TSV ) 技术连接,相当于使 3D 堆叠规模突破了单颗 flash 的物理尺寸限制,进一步提升容量、带宽。

同时 HBM 也使用不同于传统 DRAM 的 PCB 走线、插槽连接等方式,而是以类似 SRAM 的方式借助硅中介层直接与计算芯片进行通信,在同一基板上的信号传输路径缩短为毫米级,进一步降低延迟、功耗,并提升信号完整性。

由此,相比常规的 DRAM 类型,例如 DDR5 内存、GDDR6/GDDR7 显存等,HBM 实现了更大的容量、总线位宽与实际带宽。我们可以从一些存储企业网站上得知,目前应用于前沿算力芯片的 HBM3E 能够达到单颗 24GB 容量、1.2TB/s 带宽与 2.5 倍于常规 DRAM 的单位能效。

达到如此优越的性能自然也有其代价,首先是硅通孔 TSV 与硅中介层的制造与封装技术带来相比传统 DRAM 成倍增长的极高成本 ; 其次,多层堆叠也为 HBM 制造带来不少良率上的问题 ; 最后是多层堆叠的立方体形态,使其应用面限于 AI 计算、数据中心等行业级领域的计算硬件,无法像传统 DRAM 一样扩展至消费级的设备与市场,以规模效应降低生产成本。

如果用两个字总结,就是“太贵”。

值得一提的是,中国企业目前仍处于 HBM 的堆叠、封装、材料、通信、制造设备等关键技术研发攻关阶段,尚未实现 HBM 的量产,同时在国际上也面临国外存储企业的专利壁垒,面临多重挑战。但行业乐观估计,中国企业在多项关键材料与技术上已形成积累,随着专项政策资金的持续投入,产业链协同攻关,有望在 5 年内实现 HBM 领域从“跟跑”到“并跑”的突破。

全闪存阵列:低延迟、高并发、高吞吐需求带来的必然趋势

HBM 为高性能 AI 计算解决了 DRAM ( 动态随机存储器 ) 性能方面的问题,自然也需要一种方案解决 NVM ( 非易失性存储器 ) 的性能问题,通俗类比我们的 PC 来说,内存性能到顶了,硬盘总不能用个普普通通的吧?拥有突出性能优势的全闪存阵列技术,因此成为高性能数据中心的必然趋势。

基于 NVMe 协议的全闪存阵列,相对于传统的串行连接 SCSI 接口 ( SAS ) 协议拥有多种优势,首先是存储介质从机械硬盘 ( HDD ) 全面转向固态硬盘 ( SSD ) ,这一点针对系统整体的轻量化、低功耗、高能效等趋势,影响不言而喻。主机借助 NVMe over Fabrics 技术,还能通过网络实现高性能的远程存储访问。

全闪存阵列应用了更快的总线接口、更大的队列深度,简化了传统 SAS 中的多次协议交互,缩短服务器与存储阵列数据传输的路径,能够满足 AI 计算对低时延、高并发、高吞吐的严苛需求。更多新技术也正解决固态硬盘在行业级应用中的固有问题,例如均衡磨损算法,通过 ZNS 技术抑制写入放大等。

不过近期还有一则耐人寻味的新闻。国际机械硬盘巨头希捷公布 2025 财年第四财季与完整财年业绩,其中第四财季收入同步增长 29.52%,财年营收同比增长 38.86%。希捷在第四财季的出货容量达 162EB,环比增长 13%,平均单盘容量达 13TB。

机械硬盘巨头创纪录的盈利增长,似乎反映出行业对大容量机械硬盘的需求依然强劲。不过我们也可以猜测,也许未来 AI 等高性能计算场景与云端及边缘计算场景等在存储市场上的分野会更加显著。

PCIe 从 Gen5 到 Gen6:协议进化释放数据中心效能

在消费级 SSD 市场上,PCIe 4.0 已经取代 PCIe 3.0 占据主流地位,PCIe 5.0 SSD 则随着产品线的日益丰富进入市场普及期。但在行业领域,首款 PCIe Gen6 固态硬盘已经正式加入“战场”。

近日美光宣布推出基于最新 G9 NAND 的几款数据中心级固态硬盘,其中的美光 9650 支持 PCIe Gen6,实现最高 28GB/s 顺序读取与 14GB/s 顺序写入速度,随机读写则高达 5500K IOPS 与 900K IOPS。提供 EDSFF E3.S/ E1.S 规格、8/16/32TB 容量,以及读取密集型与混合负载型版本。

固态硬盘的通道规格似乎再一次领先了平台性能,从通道速率再次翻倍带来的优势方面,PCIe Gen6 的 64GT/s 速率能够为数据中心、AI、智能网联汽车等多种前沿领域所需的高性能计算集群提供更高吞吐量,进一步带来参数同步效率与大模型训练效率的提升。

另一方面,PCIe Gen6 同样能够为 CXL 3.0 协议提供高性能基础,支持计算芯片以更高速率直接访问分布式内存池,突破硬件自身的内存瓶颈。PCIe Gen6 还带来新的动态电源管理等节能特性,支持 L0p、L1.2 低功耗状态,可根据负载进行动态的链路宽度调整。

不过 PCIe Gen6 的新特性也带来更多挑战,它首次采用 PAM4 多电平信号调制,单位时间信号传输的密度翻倍,同时对信噪比的要求更高,因此集成了可动态启用的前向纠错 ( FEC ) 功能。


(科技责编:拓荒牛 )