JavaScript 爬虫方案有推荐的吗？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐关注

› Meteor

› JSLint - a JavaScript code quality tool

› jsFiddle

› D3.js

› WebStorm

推荐书目

› JavaScript 权威指南第 5 版

› Closure: The Definitive Guide

这是一个创建于 1282 天前的主题，其中的信息可能已经有所发展或是发生改变。

目前在模仿一个别的网站练手，模拟数据比较困难，就想着爬点下来。（纯练手，非商业用途）

之前用的 Scrapy，挺好用的，但是自己本身已经对 js 、ts 比较熟悉了，而且不太喜欢 python 。

所以就想问问有么有什么 JavaScript 的替代方案之类的？比如相关的框架之类的？支持 ts 更好

10 条回复 • 2021-10-19 16:00:01 +08:00

veike

2021-10-19 13:11:25 +08:00 via Android

puppeteer ？

gavingeng

2021-10-19 13:25:22 +08:00

微软的 playwright，团队就是原先的 puppeteer，于 2019 跳到 ms

unclemcz

2021-10-19 13:50:11 +08:00

crawler

rust

2021-10-19 14:03:07 +08:00

直接走 CDP 协议

mxT52CRuqR6o5

2021-10-19 14:07:29 +08:00

(axios/got/其他 http 请求库)+cheerio
puppeteer/playwright

ypzhou

2021-10-19 14:09:34 +08:00

puppeteer

gam2046

2021-10-19 14:31:59 +08:00

不知当讲不当讲，cloudflare workers 去爬其他用了 cf 的网站，直接穿透 waf 。看起来是 cf 对自己的 IP 做了白名单处理。免费日 10 万次调用也是非常的良心。

zhuzongxing

2021-10-19 15:15:41 +08:00

我是用的比较土的方法，axios 加 cheerio

xiangyuecn

2021-10-19 15:28:10 +08:00

直接用 XMLHttpRequest 快的一逼，手撸。。，，，主要是因为别的工具也不会，写其他代码没有 js 简单😂

dcsuibian

2021-10-19 16:00:01 +08:00

感谢各位的回复
自己也去调研了下，目前我的观点是靠 axios 、cheerio，以后可能会用 playwright
axios 用过很多次了，cheerio 处理 dom 。
puppeteer 、playwright 拓宽了我的知识面，非常有兴趣但暂时用不到（目前只抓静态页面）。以后要用的话倾向于 playwright，主要看中跨平台和微软出品（ TypeScript ）
node-crawler 听人说似乎停止维护了。