1
ration 2 天前
|
2
Dora112233 2 天前
crawlee+camoufox 值得学一下
|
3
Dora112233 2 天前
可以写通用规则 写个 json ,然后解析 json 生成代码,打包成 docker 镜像,用 k8s/k3s 运行
|
![]() |
5
wentx 2 天前
无头浏览器把整个 document 捞出来... 但是也可能被封 IP
|
6
jerrywaffle 2 天前
seleniumbase 可以单个 element 截图,隐秘模式
|
7
macaodoll 2 天前
简单的网站,可以直接用大模型生成,内部规范化的脚本,已经测试过了,
|
8
macaodoll 2 天前
另外调用浏览器的话 Java 推荐 jxbrowser(商业软件,但是就算最新的也可以破解),python 的话 DrissionPage
|
![]() |
9
chengxiao 2 天前
爬虫的瓶颈不是账号和 ip 么?
|
![]() |
10
andyskaura 2 天前
是不是想要类似这种东西? https://cursor.directory/mcp/puppeteer
|
11
NoOneNoBody 2 天前
AI 的 web api 本身也是爬虫
现在能用上 AI 的可能是,自动判别网页需要获取的部分,以及爬去后的自动分类整理 后者严格说也不是爬虫的工作,而是后续工作,因为爬取工作是相同的,但如何分类则是不同的需求,同一批爬取结果也可能有很多不同的分类方法 整站 dump|siterip 然后 AI 提取? |
12
z1829909 2 天前 via Android
如果你说的 AI 是指大模型的话,爬虫的瓶颈在于 ip 指纹,账号,过验证码。这三个大模型都解决不了。
|
![]() |
13
coderluan 2 天前
|
14
thingingWoods 1 天前
众包才是爬虫的出路
|
![]() |
16
pureGirl OP @thingingWoods 有推荐的接单平台吗
|
![]() |
17
KING754 1 天前
这两天 selemium 抢个优惠券...各种问题.
确实感觉 IP 代理,才是最大的问题. 你动不动,就不能测了呀........... |
![]() |
18
YJi 1 天前
|
19
WarlockMan 19 小时 57 分钟前
爬虫没有黑科技,反而是反爬这边因为有钱有资本借助人工智能不断升级,datadom 反爬公司现在客户越来越多
|