V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
break
V2EX  ›  分享发现

新的不道德爬虫

  •  
  •   break · 13 小时 35 分钟前 · 1276 次点击
    最近大家有遇到新的类似爬虫的,但是不标记自己是爬虫的爬虫吗。。。有点绕口

    IP 定位都是阿里云新加坡区域的,类似 47.79.*.*、47.82.*.* ,爬取 IP 数很多,都是同一地区的

    我想着这个普通程序员搞个爬虫,也没必要用这么多 IP ,用代理工具应该也不会集中在一个 ip 网段吧。
    这大概率会是哪家公司在爬数据吧,但是又不标明自己是谁,还要伪装成脚本小子一样的感觉
    6 条回复    2025-03-12 14:08:52 +08:00
    set
        1
    set  
       13 小时 18 分钟前
    抱歉对这个话题不了解, 没搜索过类似答案,只是看到这个问题单纯沟通:
    这方面有规范或者成熟的实践吗? 是不是各家数据公司/个人都用浏览器 UA 来抓取数据吧, 很多网站(更多国内)禁止特定爬虫抓取,而对个人 UA 完全不限制。
    pikko
        2
    pikko  
       13 小时 18 分钟前
    用阿里微服务(云函数),他们会随机 ip 访问外网
    hefish
        3
    hefish  
       13 小时 10 分钟前
    非常同意 op 观点,公安局也不管管,这世道怎么能容许这样的爬虫存在的。
    xshwy
        4
    xshwy  
       12 小时 21 分钟前
    我服务器也遇到过这种爬虫 IP ,4 核 8G 12M 的配置给我直接打满了…
    DT27
        5
    DT27  
       11 小时 4 分钟前
    建议 IP 段直接屏蔽掉。
    freeup
        6
    freeup  
       10 小时 59 分钟前
    也可能是训练大模型的数据爬虫
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1470 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 17:08 · PVG 01:08 · LAX 10:08 · JFK 13:08
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.