去年爬拉勾的时候,我依稀记得没有任何反爬措施,想爬就爬,无所畏惧..... 。到了 19 年,拉勾添加了极验验证,网页职位接口设置了 Cookies 反爬,职位接口数据也做了请求限制,但这丝毫不影响爬取拉勾的热情。
针对拉勾主页页面已有的职位名称,构造请求链接,抓取所有职位信息异步存储至 Mysql, 再存储一份到 Excel ,方便做可视化(也实现了 JSONPipeline,根据需要自行设置)。具体可详见代码。
https://github.com/Northxw/Lagou 欢迎提交 issue。