苹果公司研究团队让AI同时“看懂图”又“画好图”，这个统一框架究竟是怎么做到的?-企业头条

投稿
评论
转发

苹果公司研究团队让AI同时“看懂图”又“画好图”，这个统一框架究竟是怎么做到的?

这项研究来自苹果公司（Apple Inc.）与伊利诺伊大学厄巴纳-香槟分校（UIUC）的联合研究团队，论文以预印本形式发布于2026年5月8日，论文编号为arXiv:2605.08029v1，研究方向归属于计算机视觉领域（cs.CV）。有兴趣深入了解的读者可通过该编号在arXiv平台查询完整论文。

在当今AI技术飞速发展的背景下，人们对于"万能AI助手"的期待越来越高——既能看懂一张照片并和你聊它的内容，又能根据你的描述凭空画出一幅图，还能修改图里的细节，甚至在一段对话中把图文交错地生成出来。然而，现实中绝大多数AI系统都是偏科生：要么擅长理解，要么擅长生成，很少有系统能把两件事做得一样好，而且背后用的还是同一套思维方式。

苹果研究团队意识到这个问题的根源不仅仅是性能不够强，而是现有的统一多模态模型在架构层面就"先天不足"——它们的文字生成和图像生成在骨子里就是两套不同的逻辑，强行拼在一起只是表面上的统一。这篇论文提出的STARFlow2，正是试图从根本上解决这个结构性矛盾，让同一套机制同时驱动文字和图像的生成，就像一个演员用同一套表演方法既能演喜剧又能演悲剧，而不是换一套戏服就换一个人。

---

一、为什么现有的"统一"AI其实并不统一

要理解STARFlow2的价值，需要先搞清楚现有方案到底哪里出了问题。

以今天最流行的大语言模型为例，它生成文字的方式是从左到右一个字一个字地预测，就像你在手机上打字时，输入法一个字一个字地给你推荐下一个词。这种方式叫做"因果自回归"——每生成一个词，都只看它前面已经出现的内容，不需要反复修改，一次到位。

图像生成模型则完全不同。以现在大热的扩散模型（Diffusion Model）为例，它的工作方式更像是在一张布满噪点的画布上，通过反复"降噪"逐步还原出一幅清晰的图像，这个过程需要来来回回迭代很多次才能完成。这种方式和文字的一次性左到右生成在逻辑上根本不是同一回事。

当研究者想把这两种能力塞进同一个模型时，麻烦就来了。目前最常见的做法是给模型装上"两个引擎"：一个引擎负责文字，另一个引擎负责图像，两者共用同一个躯壳，但内部逻辑各自为政。这就好比一辆汽车，前轮用电动发动机，后轮用汽油发动机，表面上是一辆车，实际上是两套系统拼凑在一起，协调起来既麻烦又低效。

这种拼凑带来了三个具体的麻烦。第一，生成完一张图之后，这张图没有办法直接进入AI的"记忆系统"（也就是KV缓存）被后续的文字生成直接使用——要想在后续对话中引用这张刚生成的图，得重新把图"翻译"一遍，相当于把刚做好的菜端走，洗干净盘子再重新装回来，白费工夫。第二，如果想让这个模型既擅长生成图像又保留原来理解图像的能力，训练起来非常困难——训练图像生成往往会破坏原有的视觉理解能力，就像一个人拼命练习快速说话，结果反而忘了怎么好好听别人讲话。第三，用离散符号来表示图像（把图像切割成一个个离散的"图像词"）会损失大量细节，就像用低像素截图来保存珍贵照片，总感觉差了那么一口气。

苹果研究团队把这三个问题归纳为三个必须同时满足的设计目标：保留预训练视觉语言模型的理解能力不退化、用连续的方式生成高质量图像而不损失细节、让文字和图像的生成用同一套因果机制运作。他们发现，现有方案总是顾此失彼，无法同时达成这三点。

---

二、一个关键洞察：自回归流模型和语言模型其实是同一种生物

解决这个问题的关键突破口，来自一个非常精妙的观察。

语言模型生成文字的时候，用的是因果Transformer——一种带有"从左到右单向遮挡"注意力机制的神经网络结构。每个位置只能看到它前面的内容，不能偷看后面，这确保了生成是单向进行的。

而近年来出现的一类叫做"自回归归一化流"（Autoregressive Normalizing Flow，简称TARFlow）的图像生成模型，用的结构恰好也是因果Transformer——同样的单向遮挡，同样的KV缓存机制，同样的从左到右结构。唯一的区别在于：语言模型的输出是"下一个词是什么"的概率分布，而TARFlow的输出是"对当前连续数值做怎样的变换"的参数。

换句话说，如果你把语言模型的输出头从"预测哪个词"换成"预测一个高斯分布的均值和方差"，这个模型就从语言模型变成了一个连续图像生成模型，而内部所有的计算结构一模一样。这个发现意味着，文字生成和连续图像生成之间其实没有结构上的鸿沟——它们只是输出头不同，骨架完全兼容。

这就好比发现巧克力蛋糕和香草蛋糕的制作流程几乎完全一样，只是最后一步加的风味不同。既然如此，当然可以用同一套烤箱、同一个烘焙师傅、同一套工序来完成两种蛋糕的制作，而不需要在厨房里专门辟出两个区域、配备两套截然不同的设备。

正是基于这个洞察，STARFlow2得以在真正意义上实现统一：文字生成和图像生成共用同一个因果Transformer骨架、同一套KV缓存机制、同一个从左到右的生成逻辑，不需要任何结构上的妥协或拼凑。

---

三、Pretzel架构：两条流水线垂直交织，像麻花一样扭在一起

STARFlow2的核心设计被称为"Pretzel架构"（名字来源于椒盐卷饼那种两股面团交叉缠绕的形状，论文中专门提到这个命名灵感来自两条数据流交叉连接时形成的特征形状）。

这个架构把两条数据处理流水线垂直交织在一起。第一条是"VLM流"，使用的是一个已经训练好、具备强大视觉理解能力的预训练视觉语言模型（具体采用的是阿里巴巴发布的Qwen2.5-VL-7B-Instruct）。第二条是"TARFlow流"，是一个专门负责连续图像生成的自回归流模型。两条流水线处理的是同一段交错排列的文字和图像序列，用的是同一个因果遮挡机制。

关键在于两条流水线之间的连接方式——"垂直跳跃连接"。这些连接在每一个位置都把两条流水线的信息双向打通，就像两条平行跑道之间每隔一段就有一条换道通道，让两辆车可以相互借道、交换信息。

具体来说，当TARFlow流在处理图像位置时，它的输入不仅仅是图像本身经过浅层变换后的中间表示，还会加上VLM流在同一位置输出的高层语义信息，两者相加作为TARFlow的实际输入。这样一来，TARFlow在生成图像的每一步都能直接参考VLM积累的丰富语义理解，就像画家在画画时随时可以听取一位博学的艺术评论家的意见，而不是闭门造车。

另一方面，在文字位置，TARFlow流的输出会轻量地修正VLM流的文字预测结果。VLM的语言建模基础保持完整，TARFlow只是在旁边轻轻加了一个校正项，就像一位助理在导演最终决定之前提出一个小小的补充建议，而最终权威仍然在导演手里。

为了确保整合过程不会破坏原有能力，这两个连接的权重矩阵都被初始化为全零——模型训练开始时，两条流水线完全独立工作，就像两个新同事刚入职时各做各的事，随着时间推移才逐渐学会配合。VLM流在整个训练过程中始终被"冻结"，不接受任何梯度更新，从而保证预训练积累的理解能力绝对不会因为图像生成的训练而退化。

与另一种常见的融合方式"Mixture-of-Transformers"（MoT，混合专家Transformer）相比，Pretzel的差异在于维度方向不同。MoT是"水平分离"——不同的内容（文字或图像）被路由到不同的参数分支，两条路各走各的，只在注意力层短暂汇合。Pretzel是"垂直交织"——两条流水线处理的是完全相同的内容，只是各自从不同维度提取信息，然后在每个位置通过跳跃连接双向融合。这种垂直交织让两条流水线可以在每个位置都互相参考，信息流通更为充分。

研究团队实验验证了MoT方案的两个失败模式：如果冻结VLM只训练TARFlow分支，生成质量很差；如果同时微调VLM，理解能力会严重退化（MME评分从正常水平暴跌到约800分）。这个对比实验清楚地说明了为什么需要Pretzel这种垂直交织的新设计。

---

四、深浅流设计与FAE潜在空间：让图像生成既精细又高效

光有Pretzel架构还不够，STARFlow2还引入了两个配套设计来进一步提升图像质量并保证系统的整体协调性。

先说"深浅流设计"。图像中的像素并不是独立的随机数值，相邻的像素之间有很强的空间关联——天空区域的像素颜色相近，边缘区域存在规律性的颜色跳变。如果只用一个从左到右的单次扫描来建模这些复杂的局部关联，模型需要极大的深度才能捕捉到所有细节，代价过高。

为了解决这个问题，STARFlow2借鉴了STARFlow前作的设计思路，把图像生成分成两个阶段。第一阶段由几个"浅层TARFlow块"负责，它们专门处理图像内部的局部空间关联，通过交替正向和反向扫描的方式，把原始图像的局部复杂结构变换成一种更"整洁"的中间表示。这个过程就像先把一堆杂乱的乐高零件按颜色和形状分好类，放进不同的格子里，这样下一步取用时才更方便。第二阶段由深层的TARFlow流（也就是Pretzel架构中的那条TARFlow流水线）负责，它在浅层块输出的整洁中间表示上，结合整个多模态上下文（包括前面的文字描述和前面已经生成的内容）进行全局建模，把握大的结构和跨模态的语义关联。

整个系统存在一个精确的数学性质：它是一个归一化流模型，意味着可以精确计算任何一张图像在模型下的对数概率，训练可以直接用最大似然估计，不需要像扩散模型那样通过变分下界来间接优化。这种精确性在理论上保证了模型能以最直接的方式学习数据分布。

再说"FAE潜在空间"。STARFlow2并不直接处理原始像素，而是在一个叫做"特征自编码器"（Feature Auto-Encoder，FAE）的压缩表示空间里工作。这个FAE是在DINOv2-g/14（一个由Meta开发的强大视觉特征提取器）的特征基础上训练的，能把一张图像压缩成一组紧凑的连续向量。研究团队发现，基于DINOv2特征训练的FAE在图像生成质量上比基于SIGLIP（另一种常见视觉编码器）的方案更好，同时对理解任务的性能影响也更小。

这个共享的FAE潜在空间有一个特别重要的性质：它同时服务于理解和生成两个任务。理解任务把图像压缩进这个空间作为VLM的输入；生成任务把这个空间的向量作为TARFlow的输出目标。两件事用同一个"语言"交流，不需要在不同表示之间来回翻译。

更重要的是，由于图像生成的输出（FAE潜在向量）和文字生成的输出（词向量）都可以直接进入KV缓存，后续生成步骤可以直接把前面生成的图像内容当作上下文使用，完全不需要额外的重新编码步骤。这对于需要交替生成文字和图像的多轮对话场景来说，意义重大——效率提升的同时，整个生成过程在逻辑上也更加连贯。

---

五、三阶段训练：像培养一个多才多艺的演员那样循序渐进

Pretzel架构设计再精妙，也需要一套合理的训练策略才能把各个组件的潜力充分激活。STARFlow2采用了三个递进的训练阶段，每个阶段都有明确的分工和目标。

第一阶段专注于图像生成能力的建立。在这个阶段，TARFlow流水线和浅层TARFlow块在大规模文本-图像对数据上训练，学习根据文字描述生成对应图像。VLM在此阶段完全冻结，只负责把文字描述编码成语义表示，传给TARFlow使用，自身不接受任何梯度更新。数据规模约为8亿对文本-图像对，包括研究团队的内部数据集、CC12M和JourneyDB等公开数据集。这个阶段的训练目标是让TARFlow具备基本的文生图能力，就像演员先学会基本功。

第二阶段专注于视觉理解能力的对齐。有了浅层TARFlow块输出的中间图像表示之后，需要让VLM能够"读懂"这种表示，用于回答关于图像的问题。在这个阶段，研究团队冻结浅层块和VLM本身，只训练一个轻量级的"适配器"——一个小型神经网络，负责把FAE潜在空间的图像表示变换成VLM能够理解的形式。适配器采用了FiLM（Feature-wise Linear Modulation）风格的设计，包含一个多层感知机和一个根据噪声水平进行自适应调整的层归一化机制。训练数据包含约2亿个图文样本，涵盖图像描述和视觉问答等任务。这个阶段确保FAE潜在空间这个原本专为生成设计的表示，也能服务于理解任务，就像演员在掌握表演技巧之后，开始学习如何理解剧本、揣摩角色意图。

第三阶段是真正的大融合。两条流水线之间的垂直跳跃连接正式激活，所有组件（除了VLM和FAE编码器这两个始终冻结的预训练模型之外）联合优化。训练数据覆盖了多模态理解、文生图、图像编辑、交错文图生成等多种任务类型，数据集包括BLIP3-o-60K、Cambrian-7M、CoMM、Pico-Banana、OmniEdit和Zebra-CoT等约8000万个样本。训练目标把归一化流损失和下一词预测损失加权相加，两条流水线同时受益。由于跳跃连接的权重初始化为零，训练开始时模型行为与第一、二阶段完全一致，随后逐渐学会通过这些连接进行跨流水线信息交换，就像两位已经各自成熟的演员开始学习在舞台上默契配合。

整个训练在64块H100 GPU上完成，使用AdamW优化器，批量大小1024，混合精度训练（bf16格式），所有图像均在256×256分辨率下训练。总可训练参数约36亿。

---

六、实验结果：用数字证明三个目标都达到了

STARFlow2在多个基准测试上进行了全面评估，覆盖了图像生成和多模态理解两大方向。

在多模态理解方面，研究团队在MME、SEED-Bench、MMBench、MMMU、GQA和AI2D六个标准测试集上进行了评测。STARFlow2（参数规模约10.6亿）的得分在大多数测试上处于同等规模统一模型的主流水平：MME-P得分1528.8，GQA得分55.8，SEED得分71.1，MMBench（英文）得分71.5，MMMU（验证集）得分44.7，AI2D得分67.7。需要特别说明的是，由于当前FAE编码器的限制，STARFlow2只在256×256分辨率下处理图像，而相比之下大多数对比方法使用了更高的分辨率，因此理解任务的得分存在一定的先天劣势。尽管如此，整合了TARFlow流水线之后，模型的理解性能并没有相比单纯的理解模型（如Qwen2.5-VL-Instruct）出现崩塌式退化，验证了Pretzel架构确实能保护预训练的理解能力。

在图像生成方面，GenEval测试集上STARFlow2得到了0.82的总分，具体细分：单物体0.99、双物体0.89、计数0.84、颜色0.80、位置0.86、颜色属性0.56。DPG-Bench测试集上总分84.94，细分：全局91.45、实体91.83、属性88.91、关系91.09、其他88.61。这两个得分在所有参与比较的同等参数规模的统一多模态模型中均处于具有竞争力的水平，与专门的图像生成模型（如SD3-Medium和FLUX.1）相比也不落下风。

一个特别值得关注的数据来自第一阶段和第三阶段的对比实验。纯文生图训练的Stage 1结束后，GenEval得分只有0.51，DPG-Bench得分82.02。经过包含多任务联合训练的Stage 3之后，GenEval得分跃升至0.82，提升幅度高达60.8%；DPG-Bench也提升至84.94，改善了约3.6%。这个结果说明，让模型同时学习理解和生成，不仅没有让生成能力打折扣，反而因为VLM丰富的语义理解能力的加持，显著提升了生成质量。

---

七、垂直跳跃连接真的在工作吗？用数据验证设计的有效性

一个好的设计思路还需要数据来验证它确实按预期工作，而不只是理论上好看。研究团队对垂直跳跃连接的实际贡献进行了定量分析。

对于图像位置的跳跃连接（VLM信息注入TARFlow的那条连接），研究团队分析了两个指标：VLM信息在融合后表示中所占的相对幅度比例，以及VLM信息与TARFlow原始表示的余弦相似度。通过对50个随机采样的文字提示生成图像，测量结果显示：VLM投影后的幅度占融合表示总幅度的均值约为0.472，说明VLM信息在融合表示中贡献了接近一半的幅度，是实质性的贡献而非可忽略的微小扰动。与此同时，余弦相似度接近零，说明VLM信息和TARFlow原始信息的方向是正交的——它们不是在重复彼此，而是在各自的方向上提供互补的信息。这个结果说明跳跃连接确实在传递有效的额外信息，而不只是噪声。

对于文字位置的跳跃连接（TARFlow修正VLM文字预测的那条连接），同样的分析显示：TARFlow修正项的幅度比例均值约为0.013，远小于图像位置的数值。这与设计目标完全一致——文字生成的主导权仍然在VLM手中，TARFlow只是提供轻微的跨模态修正，而不是强行覆盖VLM的语言建模能力。

这两组数据合在一起，描绘了一幅清晰的图景：图像生成时，VLM的语义理解实质性地参与了进来，两条流水线真正实现了互补融合；文字生成时，TARFlow的介入非常谨慎，VLM的语言能力得到了充分保护。

---

八、局限性与未来方向：研究者自己也看得到的不足

研究团队在论文中坦诚地列出了STARFlow2当前的几个局限。

首先，三阶段训练流程虽然有效，但增加了相当的复杂性，并可能导致某些组件未能完全优化。未来的研究方向是尝试端到端地联合优化所有组件，让视觉表示和跨模态融合模块能够在同一个训练目标下共同塑造，而不是分阶段顺序训练。

其次，模型目前受限于预训练的FAE编码器，图像分辨率和细节质量都被这个外部组件的能力所制约。特别是文字渲染（在图像中生成清晰可读的文字）方面存在明显短板。一个更根本的解决方向是用像素级或图像块级别的原生视觉表示替代FAE，减少对外部视觉自编码器的依赖，让模型向更真正意义上的原生统一变得更进一步。

最后，尽管STARFlow2在多个测试集上取得了有竞争力的成绩，它并没有在所有基准上刷新最好成绩。数据规模、训练稳定性、视觉表示质量的进一步提升，以及长上下文交错生成的能力改善，都是重要的未来工作方向。

---

说到底，STARFlow2这项研究做的事情，是把一个长期被"将就"解决的架构问题从根源上重新思考了一遍。它找到了文字生成和连续图像生成之间的那个隐藏的结构共性，用一个叫做Pretzel的交织架构，在不破坏原有语言理解能力的前提下，把高质量连续图像生成和多模态理解塞进了同一套因果机制里。

对普通用户而言，这意味着未来的AI助手或许能更自然地在同一段对话中，用完全一致的方式先回答你关于一张图的问题，然后根据你的要求修改这张图，再生成一张新的图，并把这张新图的内容直接纳入后续对话的上下文，不需要任何额外的转换或等待。生成的图像不是经过压缩离散化的近似，而是保留了完整细节的连续表示。整个过程像一段流畅的对话，而不是几个独立的功能模块切换。

这个方向还在发展中，分辨率的提升和更精细的视觉细节还需要时间打磨，但它提供了一条值得深入探索的新路径。对这一研究方向感兴趣的读者，可以通过arXiv编号2605.08029查阅完整论文，或访问苹果官方开源代码库进一步研究实现细节。

---

Q&A

Q1：STARFlow2和普通的图文生成AI有什么本质区别？

A：普通的图文统一AI通常是"两套系统拼在一起"，文字用左到右预测，图像用多次迭代降噪，两套逻辑差异很大，生成完图像还要重新编码才能继续对话。STARFlow2的核心区别在于，它发现自回归归一化流和语言模型结构上完全一样，只是输出头不同，因此可以用同一套因果Transformer机制同时驱动文字和连续图像的生成，不需要迭代降噪，也不需要图像重新编码。

Q2：Pretzel架构冻结了VLM，那图像生成质量靠什么来保证？

A：图像生成质量主要靠TARFlow流水线本身，以及VLM通过垂直跳跃连接注入的语义信息来共同保证。实验数据显示，VLM信息在融合表示中的幅度贡献约占47%，且与TARFlow原始信息方向正交（余弦相似度接近零），说明VLM提供的是互补的语义理解，而不是简单的重复。更关键的是，加入VLM联合训练后，GenEval得分从0.51大幅提升到0.82，说明冻结的VLM对生成质量提升起到了实质性作用。

Q3：STARFlow2目前最大的短板是什么？

A：最明显的短板是图像分辨率和细节质量受限于预训练的FAE编码器，目前只在256×256分辨率下运行，且文字渲染效果较差。此外，多阶段训练流程较复杂，可能存在优化不充分的问题。在综合多模态理解基准上，受分辨率限制，部分测试项目得分低于专门的理解模型。研究团队指出，未来用原生像素级表示替代FAE，以及实现端到端联合训练，是改善这些问题的主要方向。

(科技责编：拓荒牛