OpenAI的疯狂数据中心,芯片猜想

《The Information》在上周五复活节假期开始时报道了有关微软和OpenAI合作的Stargate(星际之门)的报道,该报告与超以太网联盟(微软是其创始成员)设定的100 万个互连端点的可扩展性未来以太网目标一致。

星际之门系统也从此引起了人们的议论。 Altman 似乎无法决定 OpenAI 是否应该完全依赖微软,但谁能责怪他呢?这就是为什么还有传言称OpenAI 正在设计自己的用于人工智能训练和推理的芯片,以及关于Altman试图带头投资 7 万亿美元芯片制造但随后又放弃的令人愤慨的评论。

你不能责怪Altman乱扔了他正在盯着的大数字。训练人工智能模型非常昂贵,并且运行推理——主要是生成tokern——也不便宜。正如 Nvidia 联合创始人兼首席执行官黄仁勋最近在 GTC 2024 会议上的主题演讲中指出的那样——他们是不可持续的昂贵。这就是 Microsoft、Amazon Web Services、Google 和 Meta Platform 已经创建或正在创建自己的 CPU 和 XPU 的原因。

随着参数数量的增加以及数据从文本格式转变为其他格式,如果目前的趋势持续下去并且铁可以扩展,那么LLM只会变得越来越大——在未来几年内将增长 100 倍到 1,000 倍。

因此,我们听到有关《星际之门》的讨论,这表明人工智能训练的上层毫无疑问是富人的游戏。

根据您在最初的《星际之门》传闻后的报告中所读到的内容,《星际之门》是一个项目的第五阶段,该项目将耗资 1000 亿至 1150 亿美元,星际之门将于 2028 年交付,并在 2030 年及以后运营。微软目前显然正处于扩建的第三阶段。据推测,这些资金数字涵盖了机器的所有五个阶段,目前尚不清楚该数字是否涵盖了数据中心、内部机械以及电力成本。微软和 OpenAI 可能不会采取太多行动来解决这个问题。

目前还没有讨论 Stargate 系统将基于什么技术,但我们认为它不会基于 Nvidia GPU 和互连。它将基于未来几代的 Cobalt Arm 服务器处理器和 Maia XPU,以太网可扩展到单台机器中数十万到 100 万个 XPU。

我们还认为,微软收购了 DPU 制造商 Fungible 来创建可扩展的以太网网络,并且可能让Juniper Networks 和 Fungible 的创始人Pradeep Sindhu创建匹配的以太网交换机 ASIC,以便微软可以控制其整个硬件堆栈。

当然,这只是一个猜想。

无论 Microsoft 使用哪种以太网网络,我们都相当确定在某个时候 100 万个端点是目标,而我们也相当确定 InfiniBand 不是答案。

我们还认为,假设的这款 XPU 将与未来的 Nvidia X100/X200 GPU 或其后继产品(我们不知道其名称)一样强大是不太可能的。微软和 OpenAI 更有可能尝试大规模扩展更便宜的设备网络,并从根本上降低人工智能训练和推理的总体成本。

他们的商业模式取决于这种情况的发生。

而且我们还可以合理地假设,在某个时候 Nvidia 将不得不创建一个挤满矩阵数学单元的 XPU,并舍弃让该公司在数据中心计算领域起步的矢量和着色器单元。如果微软为 OpenAI 打造了一个更好的mousetrap,那么 Nvidia 将不得不效仿。

Stargate 肯定代表了人工智能支出的阶梯函数,也许还有两个阶梯函数,具体取决于你想要如何解释数据。

在数据中心预算方面,微软迄今为止公开表示的全部内容是,它将在 2024 年和 2025 年在数据中心上花费超过 100 亿美元,我们推测其中大部分支出用于支付 AI 服务器的成本。那些 1000 亿美元或 1150 亿美元的数字太模糊,无法代表任何具体内容,因此目前这只是一些大话。我们要提醒您的是,在过去的十年中,微软至少保留了 1000 亿美元的现金和等价物,并在 2023 年 9 月的季度达到了接近 1440 亿美元的峰值。截至 2023 日历年(微软 2024 财年第二季度),该数字下降至 810 亿美元。

因此,微软现在没有足够的资金来一次性完成 Stargate 项目,但其软件和云业务在过去 12 个月的销售额总计达到 825 亿美元,而销售额约为 2276 亿美元。未来六年,如果软件和云业务保持原样,微软将带来 1.37 万亿美元的收入,净利润约为 5000 亿美元。它可以承担星际之门的努力。微软也有能力购买 OpenAI,然后就可以结束它了。

不管怎样,我们为微软可能已经构建的集群以及未来可能为 OpenAI 构建的集群制定了预算,展示了它们的组成和规模如何随着时间的推移而变化。看一下:

我们认为,随着时间的推移,分配给 OpenAI 的 AI 集群数量将会减少,而这些集群的规模将会增加。

我们还认为 OpenAI 集群中 GPU 的份额将会下降,而 XPU 的份额(很可能在 Maia 系列中,但也可能使用 OpenAI 设计)将会上升。随着时间的推移,自研XPU 的数量将与 GPU 的数量相匹配,我们进一步估计这些 XPU 的成本将不到数据中心 GPU 成本的一半。此外,我们认为从 InfiniBand 转向以太网也将降低成本,特别是如果微软使用自主研发的以太网 ASIC 和内置人工智能功能和集体操作功能的自主研发的 NIC。 (就像 Nvidia 的 InfiniBand 的 SHARP 功能一样。)

我们还强制采用支出模型,以便在 2028 年有两个拥有 100 万个端点的集群——一个由 GPU 组成,一个由自研 XPU 组成,或者两个集群各占一半。我们想要估计未来的集群性能,但这很难做到。每年可能会有更多的 XPU 获得适度的性能提升,但性价比却要高得多。

需要记住的是,微软可以保留当前一代的 GPU 或 XPU 供 OpenAI 内部使用(因此也是其自己的),并在未来许多年内向用户出售N-1和N-2代,很可能会获得很多收益其投资诱饵再次回到 OpenAI 上。因此,这些投资本身并不是沉没成本。这更像是一个汽车经销商驾驶着一大堆挂有经销商牌照的不同汽车,但在出售它们之前并没有将里程数提高得太高。

问题是:微软会继续在 OpenAI 上投入巨资,以便扭亏为盈并租用这些产能吗,还是会停止在 OpenAI 上花费 1000 亿美元(两个月前该公司的估值为 800 亿美元)?另外还要花费 1100 亿美元左右的基础设施建设,以完全控制其人工智能堆栈。

即使对于微软来说,这些数字也是相当大的。但是,正如我们所说,如果你看看 2024 年至 2028 年,微软可能有大约 5000 亿美元的净利润可供使用。很少有其他公司这样做。

微软从一个 BASIC 编译器和一个从第三方拼凑出来的垃圾 DOS 操作系统开始,为一个不理解它的绝望的蓝色巨人做装饰,这简直是在放弃糖果店。

也许这也是奥特曼的噩梦。但考虑到将人工智能推向新的高度需要巨额资金,现在可能为时已晚。



(科技责编:拓荒牛 )