本文转自:人民邮电报
8月23日,以“算网筑基 智引未来”为主题的2025中国算力大会在山西省大同市开幕。阿里云智能集团副总裁李俊平出席大会主论坛并发表主旨演讲。他表示,针对智算集群训练并兼顾推理方面,云计算是非常理想的解决方案。
李俊平认为,自互联网和移动互联网浪潮之后,我们正在进入AI时代,在To C和To B两个领域,AI的影响力可谓惊人。大模型是驱动这轮AI变革的核心力量,模型训练、推理代表了算力需求最典型的两个场景,但这两个场景有很大区别。模型训练与参数量、训练语料Token规模呈正相关,主流的模型训练需要千卡、万卡,甚至十万卡集群来支持,对并行效率、计算和通信调度以及故障感知、快速拉齐要求非常高,对应每一项都是巨大的成本开销。而模型的推理应用部分则完全不一样,关注算力的性价比、时延以及对高弹性、高可用的要求,与过去的APP应用场景非常相似。如果能用一种方案将训练和推理结合起来,降低基础设施投资、运营成本以及运维难度,将是非常理想的。
李俊平表示,针对智算集群训练兼顾推理方面,云计算是非常理想的解决方案。云计算解决了两个核心问题,一是技术层面,用数万台、十万台甚至百万台通用的服务器,通过集群的方式把这些服务器统一编排、统一使用,形成统一的计算、存储、网络技术栈和资源池。二是商业层面,云服务的模式真正将算力变成了“水电煤”,让算力服务像自来水、电力一样,按需付费、按量付费,降低基础设施投资的难度,同时还可实现高弹性资源配置。
李俊平强调,云在兼顾模型训练和推理方面的表现是非常理想的。从全球范围来看,主流大模型厂商选用训练基础设施时,不约而同地选择云的方式。国内也是如此,例如阿里有通义大模型以及阿里云的基础设施。在模型部署应用方面,无论是APP和API调用方式,还是基于开源模型的本地化部署方式,云的方式都非常理想。
李俊平介绍,阿里云于2009年成立,目前是国内最大的云服务厂商,针对新的AI基础设施(AI Infra),正在做全面的升级。云平台集计算、存储、网络于一体,模型训练、推理以及模型支撑的业务系统,可以同时在云平台上部署落地。在“云+AI”体系里,阿里云依托成本、技术及服务等方面的优势,在支撑产业创新方面取得非常大的进展。 (叶曜坤)