V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
pureGirl
V2EX  ›  程序员

爬虫现在有啥黑科技抓取法吗

  •  
  •   pureGirl · 2 天前 · 3924 次点击
    有没有类似 ai+rpa 批量抓取不用一个个写脚本的那种
    19 条回复    2025-04-01 18:15:22 +08:00
    ration
        1
    ration  
       2 天前
    Dora112233
        2
    Dora112233  
       2 天前
    crawlee+camoufox 值得学一下
    Dora112233
        3
    Dora112233  
       2 天前
    可以写通用规则 写个 json ,然后解析 json 生成代码,打包成 docker 镜像,用 k8s/k3s 运行
    googxuran
        4
    googxuran  
       2 天前
    @ration 用过这个感觉不太行啊,程序员还是 selemium 比较趁手。
    wentx
        5
    wentx  
       2 天前
    无头浏览器把整个 document 捞出来... 但是也可能被封 IP
    jerrywaffle
        6
    jerrywaffle  
       2 天前
    seleniumbase 可以单个 element 截图,隐秘模式
    macaodoll
        7
    macaodoll  
       2 天前
    简单的网站,可以直接用大模型生成,内部规范化的脚本,已经测试过了,
    macaodoll
        8
    macaodoll  
       2 天前
    另外调用浏览器的话 Java 推荐 jxbrowser(商业软件,但是就算最新的也可以破解),python 的话 DrissionPage
    chengxiao
        9
    chengxiao  
       2 天前
    爬虫的瓶颈不是账号和 ip 么?
    andyskaura
        10
    andyskaura  
       2 天前
    是不是想要类似这种东西? https://cursor.directory/mcp/puppeteer
    NoOneNoBody
        11
    NoOneNoBody  
       2 天前
    AI 的 web api 本身也是爬虫

    现在能用上 AI 的可能是,自动判别网页需要获取的部分,以及爬去后的自动分类整理
    后者严格说也不是爬虫的工作,而是后续工作,因为爬取工作是相同的,但如何分类则是不同的需求,同一批爬取结果也可能有很多不同的分类方法

    整站 dump|siterip 然后 AI 提取?
    z1829909
        12
    z1829909  
       2 天前 via Android
    如果你说的 AI 是指大模型的话,爬虫的瓶颈在于 ip 指纹,账号,过验证码。这三个大模型都解决不了。
    coderluan
        13
    coderluan  
       2 天前
    https://github.com/ScrapeGraphAI/Scrapegraph-ai

    刚出来的时候我试过,不太好用,现在什么状态不太清楚。
    thingingWoods
        14
    thingingWoods  
       1 天前
    众包才是爬虫的出路
    pureGirl
        15
    pureGirl  
    OP
       1 天前
    @z1829909 想用来抓那种没有门槛的网站,而且不需要挨个解析
    pureGirl
        16
    pureGirl  
    OP
       1 天前
    @thingingWoods 有推荐的接单平台吗
    KING754
        17
    KING754  
       1 天前
    这两天 selemium 抢个优惠券...各种问题.
    确实感觉 IP 代理,才是最大的问题.

    你动不动,就不能测了呀...........
    YJi
        18
    YJi  
       1 天前
    要抓什么数据? 互联网文本数据我这有接口(包括抖快微小
    WarlockMan
        19
    WarlockMan  
       19 小时 57 分钟前
    爬虫没有黑科技,反而是反爬这边因为有钱有资本借助人工智能不断升级,datadom 反爬公司现在客户越来越多
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5595 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 06:12 · PVG 14:12 · LAX 23:12 · JFK 02:12
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.