Fastly发现网站AI流量多来自爬虫，即时截取却成最大压力源-企业头条

投稿
评论
转发

Fastly发现网站AI流量多来自爬虫，即时截取却成最大压力源

云计算企业Fastly在2025第二季的Threat Insights报告指出，人工智能机器人正在改变网站流量结构，虽然人工智能机器人流量的80%来自爬虫，不过，真正对基础设施造成压力的是来自模型推理阶段的即时截取。即时截取工具在高峰甚至可对同一网站发出每分钟3.9万次请求，远高于最大训练爬虫约每分钟1千次，可能对未加以防护的网站形成类似DDoS的冲击。

根据Fastly的数据，人工智能爬虫流量主要由Meta、Google与OpenAI三大企业产生，合计占比高达95%，其中Meta单独贡献了52%，Google为23%，OpenAI则约20%。在即时截取方面，OpenAI的ChatGPT-User与OAI-SearchBot为绝对大宗，合计占即时截取工具流量近98%。

以区域来看，北美网站接收的人工智能流量接近90%属于爬虫，欧洲、中东与非洲地区（EMEA）情况则相反，即时截取工具占59%，亚太（APAC）与拉丁美洲以爬虫为主，但比例相对较低。产业面也呈现分化，教育与媒体娱乐流量以即时截取工具为主，分别为68%与54%，更容易受到即时查询的高并行影响，相较之下，电商、医疗与公共部门超过90%流量为爬虫。

在内容来源方面，OpenAI的GPTBot虽不是最大流量来源，但覆盖范围最广，以触及的独立网站数计算，其覆盖率高达95%，采取的是广度策略，而Meta策略则是深度索引，流量庞大但命中网站数较少。

Common Crawl的CCBot特色则为每月两星期的规律抓取，覆盖约63%的人工智能爬虫触及网站，长期被学术界与小型团队用于研究数据搜集。整体而言，训练数据仍明显偏重北美，在亚太地区，网站数据则主要由日本的软银（SoftBank）与NICT索引，这显示亚太数据并非平均分布，而是倾向集中于日本，进一步影响模型可能展现出较接近日本的资讯面貌。

这些趋势代表网站需要在政策与技术上双重准备，策略层面上，官方建议，可通过robots.txt与X-Robots-Tag明确声明允许或拒绝的范围，并要求人工智能爬虫提供可验证的身份资讯，如公开IP与反向DNS。技术层面则需导入速率限制、来源挑战与即时监测，确保能将正常的自动化与恶意或伪装流量加以区隔。

Fastly强调，这些结论来自其对超过13万个应用与API的流量分析样本，每月平均涵盖6.5兆请求。

(科技责编：拓荒牛