目前在模仿一个别的网站练手,模拟数据比较困难,就想着爬点下来。(纯练手,非商业用途)
之前用的 Scrapy,挺好用的,但是自己本身已经对 js 、ts 比较熟悉了,而且不太喜欢 python 。
所以就想问问有么有什么 JavaScript 的替代方案之类的?比如相关的框架之类的?支持 ts 更好
1
veike 2021-10-19 13:11:25 +08:00 via Android
puppeteer ?
|
2
gavingeng 2021-10-19 13:25:22 +08:00
微软的 playwright,团队就是原先的 puppeteer,于 2019 跳到 ms
|
3
unclemcz 2021-10-19 13:50:11 +08:00
crawler
|
4
rust 2021-10-19 14:03:07 +08:00
直接走 CDP 协议
|
5
mxT52CRuqR6o5 2021-10-19 14:07:29 +08:00
(axios/got/其他 http 请求库)+cheerio
puppeteer/playwright |
6
ypzhou 2021-10-19 14:09:34 +08:00
puppeteer
|
7
gam2046 2021-10-19 14:31:59 +08:00 4
不知当讲不当讲,cloudflare workers 去爬其他用了 cf 的网站,直接穿透 waf 。看起来是 cf 对自己的 IP 做了白名单处理。免费日 10 万次调用也是非常的良心。
|
8
zhuzongxing 2021-10-19 15:15:41 +08:00
我是用的比较土的方法,axios 加 cheerio
|
9
xiangyuecn 2021-10-19 15:28:10 +08:00
直接用 XMLHttpRequest 快的一逼,手撸。。,,,主要是因为别的工具也不会,写其他代码没有 js 简单😂
|
10
dcsuibian OP 感谢各位的回复
自己也去调研了下,目前我的观点是靠 axios 、cheerio,以后可能会用 playwright axios 用过很多次了,cheerio 处理 dom 。 puppeteer 、playwright 拓宽了我的知识面,非常有兴趣但暂时用不到(目前只抓静态页面)。以后要用的话倾向于 playwright,主要看中跨平台和微软出品( TypeScript ) node-crawler 听人说似乎停止维护了。 |