专利审查的“神探”挑战:中科院深圳先进院等机构推出PatRe,测试AI能否胜任最难法律推理任务

这项由中国科学院深圳先进技术研究院、中国科学院大学、大连理工大学、新南威尔士大学悉尼分校及深圳理工大学联合开展的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2605.03571v1,有兴趣深入了解的读者可以通过这一编号查询完整论文。

专利审查,听起来像是极其专业的法律事务,似乎离普通人很遥远。但它其实与每个人都息息相关——当一项新药被批准上市,当你手机里的某项创新功能得以实现,当工厂里的自动化设备让产品价格变得更实惠,背后都有一道无形的审查关卡在把控着哪些"想法"值得被保护。

然而,这道关卡正在面临巨大的压力。以美国专利商标局为例,仅2025年一年,这家机构就收到了超过47.5万件专利申请,积压未审的案子多达83.8万件,一件申请从提交到第一次得到回复,平均要等超过20个月。与此同时,随着AI技术的飞速发展,已经有工具能够自动批量生成专利文件,这让堆积如山的审查工作越来越难以为继。

研究团队由此产生了一个关键问题:人工智能大语言模型,这些近年来名声大噪的"万能"文字处理器,究竟能不能承担专利审查这项工作?它们能否像人类审查员一样,读懂复杂的技术描述,判断一项发明是否真正新颖,并据此写出合乎法律的审查意见?

为了回答这个问题,研究团队创建了一个全新的测试平台,命名为PatRe,这是"专利(Patent)"和"驳斥/回应(Rebuttal)"两个词的缩写。PatRe是目前全球第一个覆盖专利审查全过程的基准测试,包含480个真实的专利审查案例,来源于美国专利商标局的公开数据库,全部在2024年之后完成审查。这项工作的独特之处,在于它并不是简单地问AI"这个专利该批还是拒",而是要求AI模拟整个你来我往的审查对话——先扮演审查员写出审查意见,再扮演申请人写出驳斥回应,从而还原专利审查这场真实的法律"博弈"的全貌。

一、专利审查究竟是怎么一回事

要理解这项研究,得先搞清楚专利审查到底是个什么过程。可以用一个日常场景来理解:假设你发明了一种新式保温杯,想要为它申请专利保护。你向专利局提交了一份文件,详细描述了你的发明有多独特、多实用。但专利局的审查员不会轻易点头,他会去翻查历史上所有已有的技术资料,寻找与你的发明相似的"前人成果"——这些在法律上被称为"现有技术"或"先前技术"。

如果审查员认为你的发明与某些现有技术太过相似,他就会发出一份"审查意见通知书"(英文缩写为OA,即Office Action),列出具体的法律依据,说明为什么你的发明不够新颖、或者显而易见、或者描述不够清晰。然后,你作为申请人可以提出反驳,用专业的法律和技术论据回击审查员的意见,同时可以对你的专利申请文件进行修改。审查员看到你的回应后,可能维持原判,也可能部分接受你的意见,发出新一轮的审查意见。这个来回拉锯的过程可能要进行好几轮,直到最终批准或拒绝为止。

整个过程就像是一场精心设计的辩论赛:一方需要主动发现对方主张的漏洞,另一方则需要见招拆招、据理力争。这对双方都要求极高的法律知识储备和技术理解能力。而以往的人工智能研究,几乎都只是盯着这场辩论的最终裁决结果——批还是不批——而完全忽略了中间这段"你来我往"的核心过程。PatRe正是为了填补这一空白而生的。

二、从"是/否"到"为什么":以往研究错在了哪里

在PatRe出现之前,学术界对专利AI的研究走的都是一条相对简单的路:给模型看一篇专利申请,让它预测这份申请最终会被批准还是拒绝。这就好比你只看一部电影的最后五分钟,然后评价这部电影的好坏——你可能猜到了结局,但对故事本身一无所知。

具体来说,哈佛大学发布的HUPD数据集最早采用了这种"接受/拒绝"二分类方式,使用BERT类模型来预测专利结果;IPBench则把同样的分类问题延伸到了现代大语言模型上;PILOT-Bench尝试用IRAC这套法律推理框架来分析专利委员会的决定;PANORAMA则向前迈了一步,试图识别具体的拒绝理由,尤其关注35 USC §102(新颖性)和§103(非显而易见性)这两条法律条款;PEDANTIC专注于35 U.S.C. 112(b)这一条款,研究如何从审查意见中提取"说明不清楚"的判断依据。

这些工作都有其价值,但都停留在静态分析层面:它们都是在事情发生之后,回过头来对结果进行分类标注。它们无法捕捉专利审查中最核心的动态过程——审查员如何主动发现问题、申请人如何构建反驳、双方如何在来回拉锯中逐渐逼近最终结论。

另外,在专利修订方向上,PatentEdits和Patent-CR这两个数据集研究了专利申请初稿到最终授权版本之间的变化,但它们聚焦的是版本对比,并没有还原驱动这些变化的审查对话本身。

研究团队将PatRe与上述所有已有工作进行了系统比较,结果发现,只有PatRe同时满足四个关键维度:任务是生成式而非判别式、有明确的法律条款依据、追踪申请文件的版本演变、并且包含多轮的对抗性交互——而其他所有数据集都在其中至少一个维度上有所欠缺。

三、PatRe的"棋局":如何设计这场测试

PatRe把专利审查过程设计成两种角色的交替任务,就像象棋中双方轮流落子一样。

第一类任务是"审查员角色",要求AI写出审查意见通知书。为了测试不同信息条件下AI的表现,这个任务被细分成了三种难度设置。第一种叫"直接提示",完全不给AI提供任何现有技术资料,让它完全依靠自己在训练过程中学到的知识来判断一项专利是否应该被拒绝,然后撰写理由——这是最难的一种,相当于让侦探在没有任何线索的情况下破案。第二种叫"参考文献已知",把审查员在真实案例中实际引用的现有技术文献都给AI看,让它从中挑选最相关的、做出元素对应分析,然后写出审查意见——这是最理想的信息条件,相当于给侦探看了所有的物证。第三种叫"检索模拟",用BM25这一经典信息检索算法根据专利申请文本自动检索出一批相关文献,再随机混入一些真正被审查员引用的文献,形成一个"真假混杂"的候选池,让AI自己甄别哪些文献真正有价值——这最接近真实的审查工作环境,相当于给侦探看了一堆线索,但里面混入了一些无关的干扰信息,需要侦探自行判断取舍。

第二类任务是"申请人角色",要求AI在拿到审查意见和相关现有技术之后,写出正式的驳斥回应。这需要AI完成三件事同时进行:把法律论点锚定到审查意见中具体的拒绝理由上,把自己专利申请的技术特点与被引用的现有技术做详细对比,同时保持整体论证的逻辑一致性,确保不偏离发明本身的保护范围。

整个框架还支持多轮对话,即在同一个专利案例中,AI可以先扮演审查员发出第一轮意见,再扮演申请人回应,然后再回到审查员的立场处理申请人的修改,如此循环,直到最终裁决。数据集中的480件专利,每件都有完整的审查历史,平均经过约2.24轮审查意见往来和1.24轮驳斥回应。最长的案例甚至经历了15轮来回拉锯。

四、如何评判AI写出的审查意见好不好

写出来只是第一步,更难的是如何评判写得好不好。专利文件不像作文,没有标准答案,不能靠简单的字符匹配来打分。

研究团队设计了一套两层评估体系。第一层是客观可量化的指标,包括三个方面:决策准确率,即AI判断出的"批准/拒绝/非终局拒绝/终局拒绝"与真实结果是否一致;条款精确度,即AI在审查意见中引用的法律条款(如35 U.S.C. §102、§103等)与真实案例中的法律依据有多少重叠;以及ROUGE-L,这是一种衡量文字重叠程度的指标,可以粗略判断生成文本与真实文本在词汇层面的相似性。

第二层是更深度的语义和逻辑评估,采用"AI作为评审"的方式——用谷歌的Gemini-3.1-Flash-Lite模型扮演一位专利律师审计员,对生成的文件从五个维度打分,每个维度满分10分。这五个维度分别是:逻辑健全性(技术和法律推理是否站得住脚)、表达清晰度(法律语言是否专业易读、逻辑是否连贯)、可操作性(给申请人的建议是否具体、是否真的有指导作用)、完整性(是否覆盖了所有相关的权利要求和拒绝理由)、以及语言风格(是否符合专利审查文件的书写惯例)。

在驳斥回应的评估中,还额外加入了一个叫"逐点覆盖率"的指标,专门衡量AI的回应有没有对审查意见中每一个具体的拒绝理由都给出了回复——这就像检查一份辩护词有没有对控方的每一项指控都予以应对,不能漏掉任何一条。

为了验证这套AI评审体系的可靠性,研究团队还邀请了三位知识产权领域的博士生做人工评估,同样按照五个维度打分,然后计算AI评分与人工评分的一致性。结果显示,三位人工评审之间的整体相关系数高达0.7285(Pearson相关),AI的评分与人工评分的相关性也达到了同等水平,证明这套评估体系是可靠的。

五、谁考了高分,谁又考砸了

研究团队测试了10个不同的大语言模型,涵盖了当前最主流的几类系统。商业闭源模型包括OpenAI的GPT-5-mini和GPT-4o-mini、谷歌的Gemini-2.5-Flash,以及DeepSeek的V3.2版本;开源模型则涵盖了从80亿参数到700亿参数的多个规模,包括Meta的LLaMA系列、阿里巴巴的Qwen3.5系列和谷歌的Gemma3系列。

从审查意见生成任务来看,GPT-5-mini在综合表现上最为突出,在"直接提示"设置下决策准确率达到51.4%,在"参考文献已知"设置下达到50.0%,在"检索模拟"设置下达到52.7%,同时在AI评审的平均分上也拿到了最高的5.39分(满分10分)。Gemini-2.5-Flash和DeepSeek-V3.2紧随其后,整体表现相近。开源模型中,Qwen3.5-27B表现最为稳健,在多个设置下都超过了规模更大的LLaMA3.3-70B。

但是,这里出现了一个让人印象深刻的异常现象:LLaMA3.3-70B这个拥有700亿参数的庞大模型,虽然在法律条款精确度上还算表现正常(54.7%),但决策准确率却低得惊人——在"参考文献已知"设置下仅有9.7%。这意味着它几乎把所有案例都判断错了。进一步分析发现,它错误地把大量非终局拒绝的案例判定为终局拒绝,而且对本应被批准的专利也倾向于拒绝。换句话说,这个模型表现出了极强的"挑剔偏见"——它仿佛认定,审查员的职责就是找毛病、拒申请,完全不考虑批准的可能性。

从驳斥回应任务来看,情况发生了戏剧性的反转。GPT-5-mini的逐点覆盖率高达90.5%,AI评审平均分更是飙升至9.18分——几乎接近满分!Gemini-2.5-Flash和DeepSeek-V3.2也分别拿到了8.34和8.37的高分。就连开源模型中的Qwen3.5-27B,在驳斥任务上也达到了8.29分,与顶级商业模型相差无几。

这种"审查意见写得很一般、驳斥回应写得特别好"的巨大落差,揭示了当前AI系统一个深层的能力不对称:它们更擅长做"应答者"而不是"主动发现者"。

六、五条让人深思的发现

仔细分析实验结果,研究团队总结出了五条值得重点关注的规律性发现。

第一条,也是最核心的一条:AI在"防守"上远胜于"进攻"。在驳斥任务中,几乎所有模型的AI评审得分都在8分以上,而在审查意见任务中,得分普遍在4到5分左右。这个差距不是小差距,是翻倍的差距。背后的原因在于,写驳斥回应时,审查员已经帮你把问题点出来了,你只需要见招拆招;而写审查意见时,你需要主动在密密麻麻的技术描述中发现潜在的法律问题,这要求的是一种更主动、更主观的判断能力。当前的AI模型,在训练过程中接触了大量的"律师式论辩"内容,因此它们在"辩护"这件事上天然更熟练;但真正中立客观的"法官式审查",需要一种不同的推理模式,而这恰恰是它们最欠缺的。

第二条,表面光鲜、内里空洞的问题普遍存在。所有模型在"语言风格"和"表达清晰度"这两个维度上得分都相当不错,但在"逻辑健全性"和"可操作性"上却差距明显。这说明这些模型非常善于模仿专业文件的语言外壳——用词正式、结构规整、措辞得体——但内里的法律推理逻辑往往存在明显漏洞。一份看起来像模像样的审查意见,如果其中的技术对应分析是错的,或者引用的法律逻辑是站不住脚的,对实际工作毫无价值。

第三条,给模型看现有技术文献,并不一定能提高它的决策准确率。这一发现相当出人意料。在"参考文献已知"设置下,模型引用法律条款的精确度确实提高了,但决策准确率并没有随之提升。以Gemini-2.5-Flash为例,它在获得参考文献后,法律条款引用精确度从46.6%提升到了56.3%,但决策准确率却从50.0%下降到了46.4%。这说明,拥有更多的证据材料,并不等于能做出更正确的判断——知道该用哪条法律引用哪篇文献,和真正理解这项发明是否值得被保护,是两件完全不同的事情。

第四条,模型在乱糟糟的文献池里找真正有用的东西,高度依赖文献质量。研究团队专门统计了一个叫"参考文献引用准确率"的指标,衡量模型在生成审查意见时,它引用的文献中有多少比例是真正有效的(即实际上和这个专利相关的文献)。结果呈现出非常清晰的层级:在"参考文献已知"设置下,这个准确率最高,GPT-5-mini达到74.3%;在"检索模拟"设置下次之,为62.3%;而在"直接提示"设置下,仅有5.1%——也就是说,当没有任何外部文献可参考时,模型引用的内容几乎全是"无中生有"编造出来的。这意味着,再强的推理能力也无法替代真实的外部证据。

第五条,传统的文字匹配指标不足以衡量专利文件的质量。ROUGE-L这个常见的文本评估指标,与人工评审结果的相关性非常低(Kendall相关系数仅为0.0258),而AI评审分数与人工评审的相关性则高得多(Pearson相关系数0.6808)。这说明,一份与真实审查意见字面相似度高的AI输出,不见得在法律推理上是正确的;反而是那些措辞不完全一样但逻辑更严密、推理更准确的输出,会得到更高的专业评分。

七、AI的"法律盲区":四种典型的犯错模式

除了整体表现,研究团队还深入分析了AI在具体法律推理上的错误模式,发现了几类典型的"盲区"。

最严重的问题出现在对"应该批准"的专利的处理上。通过混淆矩阵分析,研究人员发现,对于真实案例中最终获批的专利,大多数模型都倾向于错误地将其判定为应该被拒绝。以DeepSeek-V3.2为例,95%的应批准案例都被它判断为需要拒绝;LLaMA3.3-70B的情况更为极端,93%的应批准案例遭到错误拒绝。这种"宁可错杀,不能放过"的倾向,在专利领域是极具危害性的——它意味着AI系统会系统性地阻碍合法创新,让真正有价值的发明被无端卡在审查关卡之外。

在具体法律条款的应用上,研究团队绘制了一张"法律错误地图",横轴代表"虚假指控率"(把不存在的问题说成存在的频率),纵轴代表"漏报率"(把真实存在的问题说成不存在的频率)。结果发现,35 U.S.C. §101(专利客体适格性)是AI最难掌握的条款,同时存在最高的虚假指控率(72.8%)和较高的漏报率(48.8%)——也就是说,AI既会把明明没有问题的发明贴上"不符合§101"的标签,也会放过真正有问题的情况。§102(新颖性)也表现出类似的双向不稳定性。相比之下,§103(非显而易见性)和§112(说明书充分性)的问题更多表现为"过度执法"——漏报率较低,但虚假指控率依然很高,说明模型倾向于把这两条规则用得太宽泛,对很多实际上没有问题的专利也发出§103或§112的拒绝。

八、数据集本身告诉我们什么

PatRe数据集本身的构成,也反映出专利审查实践中的一些真实规律,值得单独审视。

从审查意见类型分布来看,480件专利共产生了1075份审查意见,其中通知允许的占44.56%、非终局拒绝占40.47%、终局拒绝占14.14%、特殊程序(Ex Parte Quayle)占0.84%。这意味着,在真实的专利审查中,最终获批是相当普遍的结果,而AI模型严重低估了这种可能性。

从拒绝理由的分布来看,§103(显而易见性)是最常见的拒绝理由,占所有拒绝次数的40.53%;§112(说明书充分性)排第二,占22.46%;§102(新颖性)占19.73%;双重专利(即与申请人自己已有专利过于相似)占11.91%;§101(客体适格性)占5.37%。一件专利可能被以多条理由同时拒绝,因此总数超过了总案例数。

从引用文献的统计来看,平均每件专利案例被引用了8.6篇参考文献,但被实际在审查意见中详细讨论的平均只有6.3篇,讨论率约为73.78%。不同技术领域的差异相当大:化学与冶金领域(IPC-C类)的"讨论率"高达200%,意味着申请人在驳斥中主动引用了比审查员更多的文献;而机械工程领域(IPC-F类)的讨论率仅为41.68%,大量被引用的文献实际上没有得到详细分析。这种差异本身就说明,不同技术领域的专利审查逻辑差异很大,AI系统需要针对不同领域有不同的处理策略。

归根结底,PatRe这项研究给我们呈现了一幅复杂而有趣的图景:AI在模仿专业语言风格上已经相当成熟,但在真正的法律推理上仍然差距明显;它在回应具体问题时表现出色,但在主动发现问题上还有很长的路要走;它掌握了大量的法律条款知识,却常常在具体案例中应用失当。这不是说AI不能用于专利领域,而是说当前它更适合作为辅助工具,帮助人类审查员和申请人提高效率,而不是独立承担判断责任。

研究团队明确指出,开源模型在这项任务中虽然整体弱于顶级商业模型,但差距并不总是悬殊,考虑到专利数据的高度敏感性(涉及未公开的技术创新),开源模型在需要保护数据隐私的场景下可能反而是更合理的选择。

未来,研究团队计划将PatRe扩展到更多国家的专利体系(如欧洲专利局、中国国家知识产权局),并加入多语言支持,使这个测试平台能够评估AI在更广泛的国际专利审查环境中的表现。

这项工作让人好奇的是:当AI模型变得越来越强大,它们是否有一天能真正胜任"主动发现问题"这一更高级的推理任务?还是说,这种主动、中立、基于证据的判断,永远都是人类独有的能力边界?

---

Q&A

Q1:PatRe基准测试里的"审查意见生成"和"驳斥回应生成"有什么区别?

A:审查意见生成要求AI扮演专利审查员,主动分析专利申请找出法律缺陷并写出正式拒绝理由;驳斥回应生成则要求AI扮演申请人,针对已有的拒绝意见构建反驳论据。前者是主动发现问题,后者是被动应对问题,研究发现AI在后者上表现比前者好得多,平均得分几乎翻倍。

Q2:为什么大语言模型给专利打分时,ROUGE-L这个指标不好用?

A:ROUGE-L衡量的是生成文字与真实文字之间的字面重叠程度,但专利审查文件看重的是法律推理的准确性和技术论据的严密性,而不是用词是否和原文相似。研究发现ROUGE-L与人工评审结果的相关性极低,而专门的AI评审打分与人工评审的一致性则高得多,说明传统文字匹配指标并不适合评估这类需要深度法律理解的文本任务。

Q3:PatRe数据集是从哪里来的,为什么只选了480件专利?

A:数据集来自美国专利商标局的公开数据库,选取的都是2024年之后完成审查并获得批准通知的案例,以确保数据的时效性和真实性。480件专利覆盖了国际专利分类系统的全部八个技术领域(A至H类),每件都附有完整的审查历史、所有轮次的审查意见、驳斥回应、权利要求修改版本和引用文献列表。规模控制在480件,是为了在保证覆盖广度的同时,完成高质量的人工审核和数据清洗,确保每一条数据都可靠可信。


(科技责编:拓荒牛 )