V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
majula
V2EX  ›  云计算

AI 爬虫真是太凶残了

  •  
  •   majula · 148 天前 · 4312 次点击
    这是一个创建于 148 天前的主题,其中的信息可能已经有所发展或是发生改变。

    今天突然收到 VPS 流量即将耗尽告警,心想我一个没什么内容,好几年没更新的个人小破站怎么也有人 D

    控制台一看,发现从月初开始,带宽使用直接从 0.2 Mbps 翻倍到稳定 2 Mbps 左右,然后在十几号的时候又涨到 3.5 Mbps ,今天直接到了 4.5 Mbps

    登上服务器分析了下流量,发现罪魁祸首是个 AI 爬虫,反复不停地拉取站上所有资源

    UA 类似这样的:

    Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; [email protected])
    

    本来以为有 Cloudflare 这种情况能缓解。我的个人站只搭了一个 Gitea 服务,然而 Gitea 目前的缓存策略对 CDN 并不友好,几乎所有请求都需要回源。

    折腾了一下没有找到简单方法可以让 CDN 缓解服务器压力,于是配了个 Cloudflare WAF 规则把这个 UA 禁了,带宽消耗直接回到月初水平。感觉之后可以整一个蜜罐,见到这种直接给他投喂一些胡说八道的东西

    另外我还发现,这个爬虫不会命中 Cloudflare 自带的 AI 爬虫拦截规则(至少目前免费方案下是这样的)


    搜了下,发现也有很多人遇到类似的问题。如果你们最近也遇到 VPS 流量暴增的情况,很有可能就是这玩意干的。

    不过随着越来越多的人开始屏蔽 AI 爬虫,估计很快它们就会开始伪装成普通用户了,识别起来会变得困难

    5 条回复    2024-07-27 09:28:44 +08:00
    Fdyo
        1
    Fdyo  
       148 天前
    写死在 robot.txt 中呢?
    dawn009
        2
    dawn009  
       148 天前   ❤️ 4
    “多爬点,我的观点就会有更多权重”
    lynnharry
        3
    lynnharry  
       148 天前
    不清楚真是 Claude 的爬虫还是别人借用的 UA ,按理说只是 Claude 的话,爬一次就结束了吧?
    potatowish
        4
    potatowish  
       148 天前 via iPhone
    Claude 封我的号,不让用它的 AI ,还疯狂爬我的内容,我直接 ban 。伪装 UA 的多数会用谷歌的爬虫
    lisxour
        5
    lisxour  
       148 天前
    @Fdyo 这种爬虫哪会管你规则
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2789 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 08:44 · PVG 16:44 · LAX 00:44 · JFK 03:44
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.