小鹏汽车近日在全球首秀上,发布了一项令人瞩目的技术创新,其在20多万价位的纯电动车型上配置了超过2200TOPS的算力,这一举措无疑开创了行业先河。然而,这一决策也引发了广泛讨论,部分声音质疑这是否仅仅是一种“堆料”行为,对一味追求算力提升的意义表示怀疑。
针对这些质疑,小鹏汽车在发布会上已做出明确回应。其核心观点聚焦于大模型的本地部署,这一策略包含两个关键点:大模型与本地部署。在AI时代,模型的能力与参数规模成正比,遵循Scaling Law定律,参数越多,模型表现越佳。然而,受限于车规级芯片算力,目前车端部署的模型普遍经过轻量化处理,实际部署的模型参数量往往在50亿以下,如理想的VLA司机大模型仅为40亿参数,远未达到“大模型”的标准。
小鹏的自动驾驶云端基座模型则拥有720亿参数的规模,这才是真正意义上的大模型。然而,由于算力限制,这一模型无法在车端实现本地部署。为了突破这一瓶颈,小鹏选择了将大模型部署到车端,通过3颗自研的图灵AI芯片,提供2200TOPS的算力,支持最高300亿参数的模型运行。从720亿到300亿,或许只需通过结构化剪枝和MoE转换即可实现,性能差距远小于从720亿到更小的模型规模的转换。
有人或许要问,既然5G时代已经到来,为何不考虑云端大模型?这确实能降低车端算力的需求。然而,行车模型对时延和帧数的要求极高,云端部署难以满足。何小鹏在发布会上提到,VLA模型至少需要达到每秒20帧才能保证足够的行车能力,这意味着从感知到数据传输、云端处理再到结果回传的总耗时必须在50毫秒以内完成,这在云端部署中难以实现。网络波动和通讯失效的风险也无法完全避免,这可能导致车端系统降级或瘫痪,影响用户体验和系统安全。
另一方面,全本地部署、无联网运行还意味着没有数据传输的合规问题,这使得模型具备在全球范围内快速部署的能力。只需在部署前针对当地市场进行本地化训练,即可满足不同地区的需求。
在小鹏G7车型上,这一策略得到了具体体现。G7采用2颗图灵芯片(共1400+TOPS)运行VLA模型(VLA-OL,具备自主强化学习能力),另1颗图灵芯片(700+TOPS)则用于运行VLM模型。这种架构下,VLA负责车辆的运动控制,如同大脑和小脑;而VLM则负责车辆对世界的感知,如同整车的大脑。VLA需要更大的算力来保证每秒20帧的性能,而VLM则只需每秒几帧的性能即可满足需求。
尽管如此,本地部署的VLA OL+VLM组合仍然给人留下了巨大的想象空间。何小鹏在发布会上提到的“智驾能力比Max车型高10倍以上”,“VLA-OL让车辆主动思考、理解世界”,“VLM让车像一个真实的人”等描述,都基于这一大算力平台。这一切的实现,都离不开大算力的支持。
随着小鹏G7的全球首秀,这一创新技术也将接受市场的检验。无论是对于小鹏汽车还是整个汽车行业来说,这都是一次具有里程碑意义的尝试。
在未来,随着技术的不断进步和市场的逐步成熟,我们有理由相信,更多创新技术将不断涌现,推动汽车行业向更加智能化、自动化的方向发展。