据台媒DigiTimes报道,华为正加速开发新一代人工智能处理器——昇腾910D,该芯片通过将四枚裸晶片封装于同一芯片内,实现超越昇腾910C的算力水平。
所谓“裸晶片”即裸露的硅片核心单元,传统GPU多采用单一大芯片设计,而昇腾910D则以“芯粒化”技术,将多个小芯片组合,既能提升良率,也可灵活扩展计算单元。
据报道,目前昇腾910C已采用双芯粒封装,将两枚910B处理器集成于一块模块,推算算力可与英伟达H100持平;而910D则在此基础上再度翻倍,将四颗晶粒并联,实现更高带宽和运算吞吐量。
此类多芯粒架构对“片间互联”的技术要求极高,需保证各芯粒之间数据传输延迟足够低,且能维持高效能耗比。华为据称在内部测试中,通过优化内部高速总线和定制化互连协议,使910D在峰值浮点运算(FP16、INT8)上展现出领先优势,同时借助多通道高速HBM内存,实现每秒数万亿次的数据读写能力。
华为为保证910D在不同AI任务中的适配性,对其数据路径与指令集进行了针对性优化,使其能兼容主流深度学习框架,并支持新的“CANN”加速库,实现零改动或微改动即可完成从CUDA到CANN的迁移。
华为昇腾系列的重点是大规模训练与推理集群,定位更接近NVIDIA的H100/H200级别数据中心GPU。