V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
pureGirl
V2EX  ›  程序员

爬虫想处理指纹一类复杂点的问题是不是只能用 js 了

  •  
  •   pureGirl · 2 天前 · 1702 次点击
    用别的语言感觉都很别扭
    16 条回复    2025-04-02 16:20:32 +08:00
    JustZzer
        1
    JustZzer  
       2 天前
    根据复杂程度对应开发,简单点的指纹可以在请求头中处理,复杂的就需要场外援助,补环境框架或者重写逻辑。
    macaodoll
        2
    macaodoll  
       2 天前
    看具体情况,不同问题可能换不同语言,因为有些东西只有某个语言有解决方案
    wangtian2020
        3
    wangtian2020  
       2 天前
    既然你知道 nodejs 是世界上最好的语言,我就放心了
    WarlockMan
        4
    WarlockMan  
       2 天前
    都对抗到浏览器指纹级别了,实际上不用再继续了。
    爬虫这边优势不对等,
    我自己采集那些奢侈品官网,爱马仕用的 datadome 公司的反爬系统,
    他们把人工智能引进来,
    越来越难采集,现在 datadome 都融资几个亿了,华尔街日报都是它的客户。
    他们官网代码都懒得加密和混淆,直接在更底层的 ip ,行为 上做防御,
    根本采不动。
    以后这样的公司会越来越多,爬虫活动的范围越来越小,注定要没落。
    glacer
        5
    glacer  
       2 天前
    用过 curl_cffi 这类带指纹的库了没,实在不行试试指纹浏览器。
    wyntalgeer
        6
    wyntalgeer  
       2 天前
    @WarlockMan MCP 浏览器怎么样呢大佬,多说几句
    Doiiars
        7
    Doiiars  
       2 天前
    @WarlockMan 用家宽也不行吗?
    Emma24
        8
    Emma24  
       2 天前
    。。。。为什么是指纹?这个需要图像采集系统的部署吧
    pureGirl
        9
    pureGirl  
    OP
       2 天前 via iPhone
    @WarlockMan 可能你采集规模大吧,我采集规模小目前还都能采
    proxytoworld
        10
    proxytoworld  
       2 天前
    用真机,组阵列
    yb2313
        11
    yb2313  
       2 天前
    以后反爬直接 ai 给你生成迷宫, 你就爬吧, 跟 jjc 换防一样, 每分钟轮换
    codelover2016
        12
    codelover2016  
       1 天前
    flyingghost
        13
    flyingghost  
       1 天前
    @WarlockMan 以后爬虫系统也得和 AI+僵尸网络媾和起来了。/023
    WarlockMan
        14
    WarlockMan  
       1 天前
    @wyntalgeer

    MCP 这种本质还是无头浏览器路线,不说无头浏览器了,就是真实浏览器里用油猴脚本,
    他们引入了 AI 对用户行为进行分析,发现有一点 不是正常人 的特征,直接这个 ip 就封了


    主要是啥,主要是,说实话,以前爬虫好做,是因为业界没有人设计出一套真正像样的反爬方案,
    没有那种极端主义,就是把反爬系统往魔怔的程度做的这种公司,
    因为人们怕设计出那样的,没有公司敢用,因为怕影响正常用户。
    小公司没底气做。

    所有你能爬的,都是人家没发力没去真正防御的。
    真要认真起来,你受不了的。

    现在的情况是啥,现在的情况是,真有这样的疯子一样的买家,
    你敢设计出来,人家就敢用,而且压根不在乎什么用户体验,
    普通用户用起来不舒服,那就憋着,就这样的态度。
    就是要把反爬往死里做,往魔怔里做,
    就是这样的态度喂出来 datadom 这样的反爬明星公司。

    爱马仕欧洲官网,中国这边爬虫太猛,人家直接把 ip 限制在只能欧洲 ip 访问,
    美国 ip ,亚太 ip ,统统不要了。人家直接不要了。
    他们本身也在故意限制和垄断商品出货渠道,人为制造利出一孔的局面,不想让我们老板这样的代购来粉蛋糕。

    普通公司敢这么玩么,人家爱马仕就是敢这样,很魔怔。

    好,那你去租欧洲 ip ,ip 这一层过了,
    还有 N 多层防御等着你,行为检测,频率检测,浏览器特征检测,https 指纹,
    一切你能想到的维度,每一层,人家都往魔怔化的程度做,往令人发指的程度去做,
    像个杠杆一样,人家稍微一发力,你这边就得跟进十倍的资源,研究半天。
    人家有钱,有人,有资本,有客户,有买家,一边跟你斗,一边还拿高额工资,
    所有你能想到的突破点,等你去试,你发现对面拿出了十倍百倍的资源等着你跟你斗

    现在就是这么个情况。爬虫永远有生存空间,因为不是所有公司都愿意这样搞,
    但世界会朝着这个方向进步,就像你今天用电脑不用担心像上个世纪动不动就中病毒木马一样。
    wyntalgeer
        15
    wyntalgeer  
       1 天前
    @WarlockMan #14 那就是走上对抗的路子了,基于视觉 AI+拟人行为的爬虫会大放异彩了,我不看好反爬能做到 0 误杀,因为人类行为太容易模拟了,只要加入一些合理的随机性,就会大大提升反爬的误杀率,毕竟本质上互联网是无法判断对方是人还是狗
    WarlockMan
        16
    WarlockMan  
       1 天前
    @wyntalgeer

    是这个理,官方现在公布的检测项有 鼠标轨迹,页面停留时间,
    还有很多检测项没有公布,
    得去不停地猜测,尝试,验证。
    https 指纹,官方没提,但你去试,就会发现果然有。
    你把每一个检查项考虑进去,做针对性处理,
    你也能设计出一套能过它防御的系统。
    但是
    斗着斗着,几年就这样过去了,不值得。
    一个月几百块咱跟它玩什么命呀
    有这精力功夫,拿来做点正事比这好
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2392 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 03:45 · PVG 11:45 · LAX 20:45 · JFK 23:45
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.