视频也能“读心术”?香港城市大学和快手联合推出能预测并生成未来事件的AI系统

这项由香港城市大学的程俊豪、廖晶教授与快手科技团队的侯亮、陶昕等人联合完成的研究,于2025年11月发表在计算机视觉领域的顶级会议上,论文编号为arXiv:2511.16669v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你正在学习如何打领带,却在某个步骤卡住了,这时如果有人能准确预测你下一步该做什么,并用视频直观地演示给你看,那该多好。这正是这项开创性研究要解决的问题。研究团队开发了一个名为VANS的人工智能系统,它不仅能理解你当前在做什么,还能预测接下来会发生什么,更重要的是,它能用视频的方式直观地"回答"你的问题。

过去,当我们问AI"接下来会发生什么"时,得到的通常是文字描述。但文字往往无法完整表达复杂的动作和空间关系。就像你很难仅凭文字描述学会骑自行车一样,许多技能和知识需要视觉演示才能真正掌握。这个AI系统的突破在于,它能将预测结果转化为动态视频,让答案变得直观易懂。

研究团队面临的最大挑战是如何让两个不同的AI模型协同工作:一个负责理解和推理(视觉语言模型),另一个负责生成视频(视频生成模型)。这就像让一个善于思考的哲学家与一个擅长绘画的艺术家合作完成一件作品。哲学家能够深入思考问题的本质,但无法将思考结果可视化;艺术家能创造美妙的视觉作品,但可能无法准确理解复杂的抽象概念。

为了解决这个问题,研究团队设计了一种名为"联合GRPO"的训练策略。这种策略分为两个阶段进行优化。第一阶段专注于让"哲学家"(理解模型)学会用"艺术家"(视频生成模型)能够理解的语言来表达思想。第二阶段则让"艺术家"学会忠实地将"哲学家"的想法转化为视觉作品。通过这种分阶段的协调训练,两个模型逐渐学会了默契配合。

为了训练和测试这个系统,研究团队构建了一个包含10万个样本的数据集VANS-Data-100K。这个数据集包含了各种场景:从教人做菜的程序性任务,到预测故事情节发展的创意性任务。每个样本都包含输入视频、相关问题和对应的视频答案,为AI系统提供了丰富的学习素材。

一、让AI学会"看懂"复杂情境

当你观看一段制作纸风车的视频时,能够轻松判断当前进行到哪个步骤,下一步应该做什么。但对AI来说,这个看似简单的过程实际上需要复杂的推理能力。AI需要识别视频中的物体、理解动作的含义、掌握制作流程的逻辑顺序,最终做出准确预测。

VANS系统的核心在于将这个复杂过程分解为两个相互配合的部分。第一个部分是视觉语言模型,它就像一个经验丰富的老师,能够观察学生的当前状态,理解学生提出的问题,然后思考应该给出什么样的指导。这个模型不仅要理解视频内容,还要根据用户的具体问题进行针对性思考。

比如说,当系统看到用户正在包饺子,已经擀好了面皮并放上了馅料,此时用户问"下一步怎么办",系统需要结合视觉信息和问题理解,推断出用户需要学习封口技巧,然后生成相应的文字描述作为视频生成的指导。

第二个部分是视频生成模型,它像一位技艺精湛的动画师,能够根据文字描述创造出逼真的动态场景。但这个"动画师"不能简单地按照文字创作,还要确保生成的视频在视觉上与输入视频保持连续性。继续包饺子的例子,生成的视频中饺子皮的颜色、厚度、周围环境都应该与输入视频保持一致,这样用户才会感觉这是自然的下一步动作。

这种设计的巧妙之处在于各司其职又密切配合。视觉语言模型专注于理解和推理,视频生成模型专注于视觉表达,但两者必须在同一个"频道"上工作,才能产生令人满意的结果。

二、突破性的"联合调优"训练方法

传统的AI训练方法通常是分别训练两个模型,然后简单地将它们连接起来使用。这就像训练一个翻译官和一个演员分别掌握各自技能,然后让他们临时合作表演。虽然各自都很专业,但缺乏默契配合,经常出现翻译官的指示演员无法准确执行的情况。

研究团队提出的联合GRPO方法彻底改变了这种训练模式。这种方法的核心思想是让两个模型在训练过程中互相感知对方的能力和限制,逐步建立起深度的协作关系。整个过程分为两个精心设计的阶段。

第一阶段被称为"可视化友好的视觉语言模型调优"。在这个阶段,视频生成模型保持不变,专注训练视觉语言模型。但训练的目标不仅仅是生成语义正确的文字描述,还要确保这些描述能够被视频生成模型准确理解和执行。系统会评估视觉语言模型生成的每个文字描述,不仅看其语义准确性,还会实际让视频生成模型根据这个描述生成视频,然后评估视频质量。

这就像训练一个导演不仅要会写剧本,还要确保写出的剧本演员能够完美演出。如果剧本写得天花乱坠但演员无法理解或执行,那就不是好剧本。通过这种训练方式,视觉语言模型逐渐学会了用视频生成模型"听得懂"的语言来表达想法。

第二阶段是"上下文忠实的视频生成模型适配"。此时,经过第一阶段训练的视觉语言模型被固定下来作为"锚点",开始训练视频生成模型。视频生成模型的任务是根据视觉语言模型提供的描述,生成既符合语义要求又与输入视频在视觉上保持连贯的新视频。

这个阶段的训练特别注重两个方面:语义一致性和视觉连贯性。语义一致性确保生成的视频准确表达了文字描述的内容,而视觉连贯性确保新视频看起来像是输入视频的自然延续,而不是突然切换到完全不同的场景。

通过这种两阶段的联合训练,两个模型建立起了深度的协作关系。视觉语言模型学会了考虑视频生成的可行性来组织语言,视频生成模型学会了在理解语义的基础上保持视觉连贯性。

三、10万样本数据集的精心构建

为了让AI系统学会处理各种复杂场景,研究团队构建了一个规模庞大且质量极高的训练数据集。这个名为VANS-Data-100K的数据集包含了10万个精心挑选和标注的样本,每个样本都包含输入视频、用户问题和对应的视频答案。

数据集的构建过程就像策划一个内容丰富的百科全书。研究团队从多个来源收集原始视频素材,包括教学视频、生活记录片段、短剧等各种类型的内容。然后通过智能化的处理流程,将这些长视频分割成有意义的片段,确保每个片段都包含完整的动作或事件。

在程序性任务方面,数据集包含了大量的教学场景,比如烹饪、手工制作、技能学习等。这些场景通常有明确的步骤顺序和因果关系,AI需要理解当前进行到哪一步,然后预测下一步的具体操作。研究团队特别注重视频质量,确保每个动作都清晰可见,背景环境信息完整,这样AI才能学会准确识别和模仿。

在预测性任务方面,数据集涵盖了各种日常场景和故事情节,训练AI理解更复杂的因果关系和情境变化。比如一个人正在准备外出,根据他的动作和周围环境,AI需要预测他接下来可能做什么。这类任务没有固定的标准答案,需要AI具备更强的推理能力和创造性。

为了确保数据质量,研究团队开发了一套严格的筛选和标注流程。他们使用AI助手自动生成初始的问答对,然后通过人工检查确保问题合理、答案准确。每个样本都经过多轮质量控制,确保输入视频、问题和答案之间有明确的逻辑关系。

四、在真实场景中的优异表现

为了验证VANS系统的实际效果,研究团队设计了全面的测试实验。他们将VANS与当前最先进的其他AI系统进行对比,测试内容包括程序性任务和预测性任务两大类,涵盖了文字准确性和视频质量等多个维度。

在程序性任务测试中,VANS展现出了显著的优势。当面对"如何继续制作鸡肉帕尔马干酪"这样的问题时,其他系统往往只能给出简单的文字描述,或者生成的视频与输入场景脱节。而VANS能够准确识别当前制作进度,理解用户的具体需求,然后生成与输入视频风格一致、步骤准确的指导视频。

在一个典型的测试案例中,输入视频显示用户已经煎好了裹面包屑的鸡肉,正在淋番茄酱。其他AI系统有的建议将鸡肉从锅中取出装盘,有的建议烘烤,但都没有准确把握制作的具体状态。VANS则正确识别出下一步应该撒奶酪,并生成了一个清晰展示撒奶酪动作的视频,奶酪的颜色、撒法都与真实制作过程高度一致。

在预测性任务中,VANS同样表现出色。面对"如果这个人很烦躁,他会做什么"这样的开放性问题,系统需要结合视频中的视觉线索和情境信息,做出合理的推测。VANS不仅能够理解情境的复杂性,还能生成符合逻辑的后续情节,展现出令人印象深刻的推理能力。

量化测试结果显示,VANS在所有主要评估指标上都明显优于对比系统。在文字描述的准确性方面,VANS的得分比最强的对比系统高出约30%。在视频质量方面,VANS生成的视频不仅视觉效果更佳,与输入视频的连贯性也更强。

特别值得注意的是,联合GRPO训练策略的效果非常明显。与仅使用基础训练方法的版本相比,采用联合训练的VANS在各项指标上都有显著提升,充分证明了这种创新训练方法的价值。

五、深入的技术分析和验证实验

为了深入理解VANS系统的工作机制,研究团队进行了详尽的消融实验。这些实验就像医生给病人做全面检查一样,逐一测试系统各个组件的作用,确保每个设计都有明确的价值。

研究团队首先验证了联合训练相对于独立训练的优势。他们比较了三种不同的训练策略:仅训练视觉语言模型、仅训练视频生成模型、以及联合训练两个模型。结果显示,只有联合训练才能真正解决两个模型之间的协调问题。仅训练其中一个模型往往导致生成的文字描述与视频内容不匹配,或者视频质量下降。

接着,研究团队测试了两阶段训练策略的必要性。他们尝试了将两个阶段合并为一次性训练,但发现这样做会导致训练不稳定,系统难以收敛到最优状态。这就像同时学习两种完全不同的技能,往往会相互干扰,影响学习效果。分阶段训练让每个模型能够专注地掌握自己的核心能力,然后再学习与对方的配合。

在奖励机制的设计上,研究团队也进行了细致的分析。他们测试了移除不同奖励成分对系统性能的影响。结果显示,每个奖励成分都有其独特的作用。文字准确性奖励确保语义正确,视频质量奖励保证视觉效果,语义一致性奖励防止生成的视频偏离文字描述。移除任何一个成分都会导致相应方面的性能下降。

研究团队还通过人工评估进一步验证了系统的实用性。他们邀请30位评估者对不同系统生成的视频进行评分,评估维度包括语义正确性、视觉连贯性和整体满意度。结果显示,VANS在所有维度上都获得了最高分,特别是在整体满意度方面,平均得分达到4.8分(满分5分),显著高于其他系统。

六、广阔的应用前景和技术拓展

VANS系统展现出的能力远不止解决单一问题,它开启了视频AI应用的全新可能性。在教育培训领域,这项技术可以革命性地改变技能学习方式。传统的视频教程是静态的,无法针对学习者的具体进度提供个性化指导。而VANS能够根据学习者当前的操作状态,实时生成下一步的指导视频,就像有一位经验丰富的老师在身边随时提供帮助。

在工业培训中,VANS可以应用于复杂设备的操作指导。当工人在装配生产线上遇到问题时,只需拍摄当前状态的视频并提出问题,系统就能生成具体的操作指导。这种个性化、情境化的指导比传统的操作手册更加直观有效,能显著提高培训效率和工作质量。

研究团队还发现,VANS具备处理多种未来可能性的能力。当面对同一个输入场景时,系统可以根据不同的问题设定生成不同的后续视频。比如看到一个人准备外出的场景,如果问"如果天气很冷他会做什么",系统可能生成穿厚外套的视频;如果问"如果他要去正式场合",则可能生成换正装的视频。这种多样性展示了系统的灵活性和创造性。

在创意内容制作方面,VANS为视频创作者提供了全新的工具。创作者可以拍摄一段开头,然后通过不同的问题引导系统生成多种不同的故事发展方向,快速探索创意可能性。这不仅提高了创作效率,还可能激发出意想不到的创意火花。

技术层面上,VANS还展现出了良好的泛化能力。虽然主要针对视频场景训练,但系统也能处理静态图像输入,将单张图片理解为静态视频片段,然后生成相应的动态后续内容。这种跨模态的适应能力表明了技术架构的稳健性和潜在的扩展空间。

七、面临的挑战和未来发展方向

尽管VANS系统展现出了令人印象深刻的能力,但研究团队也诚实地指出了当前技术面临的挑战和限制。首先是计算资源的需求。联合训练两个大型AI模型需要大量的计算能力和训练时间,这在一定程度上限制了技术的普及和应用。目前的训练过程需要高性能的GPU集群支持,普通研究机构可能难以承担相关成本。

在技术精度方面,虽然VANS在大多数场景下表现优秀,但在处理特别复杂或模糊的情境时仍可能出现判断错误。比如当输入视频中存在多个可能的发展方向时,系统有时会选择相对保守或常见的预测,而不是最符合具体情境的选择。这反映了AI系统在复杂推理方面仍有提升空间。

数据质量的依赖性是另一个重要挑战。VANS的性能很大程度上取决于训练数据的质量和多样性。虽然研究团队构建了10万样本的数据集,但相对于现实世界的复杂性,这个规模仍显不足。特别是在处理特定领域或文化背景的内容时,系统可能因为训练数据的局限性而表现不佳。

在实际应用中,系统还面临实时性的挑战。当前的VANS系统在生成视频答案时需要几十秒的处理时间,这对于需要即时反馈的应用场景来说还不够理想。虽然这个速度已经比一些竞争系统更快,但距离真正的实时交互还有差距。

隐私和安全问题也不容忽视。由于系统需要处理用户的视频输入,如何保护用户隐私、防止恶意使用成为重要考虑因素。特别是在教育和工业应用中,用户上传的视频可能包含敏感信息,需要建立完善的隐私保护机制。

研究团队提出了几个重要的未来发展方向。首先是技术效率的提升,通过模型压缩、推理优化等方法降低计算需求,使技术更容易部署和使用。其次是扩大数据集规模和多样性,特别是增加不同文化背景、特殊领域的训练样本,提高系统的通用性和适应性。

在技术创新方面,研究团队正在探索更高效的训练策略,希望能够在保持性能的同时显著减少训练时间和资源消耗。他们也在研究如何让系统具备更强的上下文理解能力,能够处理更长的视频序列和更复杂的任务链。

说到底,VANS系统代表了AI技术发展的一个重要里程碑。它不仅解决了视频理解和生成的技术挑战,更重要的是开创了一种全新的人机交互模式。通过将复杂的预测任务转化为直观的视频答案,这项技术让AI变得更加实用和贴近生活。

归根结底,这项研究的价值不仅在于技术突破本身,更在于它为我们展示了AI技术服务人类的新可能性。当AI能够像经验丰富的老师一样,根据我们的具体情况提供个性化的视觉指导时,学习和工作的方式都将发生深刻改变。

虽然目前的技术还存在一些限制,但研究团队的创新思路和实现方法为整个领域指明了发展方向。随着计算能力的提升、数据资源的丰富和算法的不断优化,我们有理由期待这项技术在不久的将来能够走进千家万户,为人们的学习、工作和生活带来更多便利。

对于有兴趣深入了解这项技术的读者,可以通过论文编号arXiv:2511.16669v1查询完整的技术细节和实验数据。这项由香港城市大学和快手科技联合完成的研究,无疑将在AI视频理解和生成领域产生深远影响。

Q&A

Q1:VANS是什么?

A:VANS是由香港城市大学和快手科技联合开发的AI系统,它能够观看视频并理解用户的问题,然后预测接下来会发生什么事件,并用视频的形式直观地回答问题。比如你在学做菜时卡住了,它就能生成下一步操作的指导视频。

Q2:VANS与传统AI视频系统有什么区别?

A:传统AI系统通常只能生成文字回答或者简单的视频延续,而VANS能够根据具体问题进行推理,然后生成针对性的视频答案。它结合了视觉理解和视频生成两种能力,能提供更个性化、更直观的指导。

Q3:VANS技术现在可以使用了吗?

A:目前VANS还处于研究阶段,主要在学术实验环境中使用。虽然技术已经相当成熟,但要成为普通用户可以使用的产品,还需要解决计算效率、成本控制等工程化问题。研究团队正在朝着实际应用的方向努力。


(科技责编:拓荒牛 )