爬虫现在有啥黑科技抓取法吗

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

有没有类似 ai+rpa 批量抓取不用一个个写脚本的那种

爬虫

黑科技

AI+RPA

19 条回复 • 2025-04-01 18:15:22 +08:00

ration

2 天前

可以尝试一下这个 https://github.com/browser-use/browser-use

Dora112233

2 天前

crawlee+camoufox 值得学一下

Dora112233

2 天前

可以写通用规则写个 json ，然后解析 json 生成代码，打包成 docker 镜像，用 k8s/k3s 运行

googxuran

2 天前

@ration 用过这个感觉不太行啊，程序员还是 selemium 比较趁手。

wentx

2 天前

无头浏览器把整个 document 捞出来... 但是也可能被封 IP

jerrywaffle

2 天前

seleniumbase 可以单个 element 截图，隐秘模式

macaodoll

2 天前

简单的网站,可以直接用大模型生成,内部规范化的脚本,已经测试过了,

macaodoll

2 天前

另外调用浏览器的话 Java 推荐 jxbrowser(商业软件,但是就算最新的也可以破解),python 的话 DrissionPage

chengxiao

2 天前

爬虫的瓶颈不是账号和 ip 么?

andyskaura

2 天前

是不是想要类似这种东西？ https://cursor.directory/mcp/puppeteer

NoOneNoBody

2 天前

AI 的 web api 本身也是爬虫

现在能用上 AI 的可能是，自动判别网页需要获取的部分，以及爬去后的自动分类整理
后者严格说也不是爬虫的工作，而是后续工作，因为爬取工作是相同的，但如何分类则是不同的需求，同一批爬取结果也可能有很多不同的分类方法

整站 dump|siterip 然后 AI 提取？