
韩国成均馆大学与浦项科大研究团队近日开发出名为“AutoGuard”的“AI Kill Switch”技术,旨在防止AI代理进行恶意数据抓取。不同于传统的网络防御措施,AutoGuard采用“间接提示注入”技术,将防御性提示嵌入网站DOM,对人类用户不可见,但可触发AI代理的内置安全机制,使其终止恶意行为。
AutoGuard系统由Python程序代码组成,调用两个大型语言模型(Feedback LLM与Defender LLM)协同运行,根据假定攻击者演变防御提示。实验结果显示,该技术在对抗GPT-4o、Claude-3、Llama3.3-70B-Instruct等模型时,防御成功率超过80%;面对GPT-5、GPT-4.1、Gemini-2.5-Flash等更强模型,成功率约达90%。
AutoGuard主要针对三种恶意行为:非法抓取个人信息、发布煽动性评论、以及基于LLM的漏洞扫描。目前技术仅在合成网站与专门基准环境中测试,尚未扩展至真实网站与多模态代理。
此技术的推出,正值韩国《人工智能基本法》即将施行,以及全球AI安全标准提升之际,凸显AI安全控制的重要性。
(首图来源:shutterstock)
)