这是项目地址 https://github.com/shuizhengqi1/MaiMaiSpider/
目前想采集脉脉网上的用户信息,拿来做数据分析。通过对前端代码分析之后找到了请求的 api。 我的思路是以一个用户为入口,获取到对他有兴趣的人然后往下爬。 现在找到了两个 api,https://maimai.cn/contact/comment_list/(简称 clist ) 和 https://maimai.cn/contact/interest_contact/(简称 ilist ) clist 里面可以获取到用户的信息以及拿来构建 url 的 encode_mmid ilist 里面能获取到对用户感兴趣的人的 encode_mmid
现在我的做法是先开一个进程,不断请求 ilist 获取到 encode_mmid,然后存储到队列里,然后使用多线程去从队列里面取 encode_mmid 加工成 url,获取到相关的信息并存入到数据库中
现在遇到的问题是经常跑着跑着就停止了,而且由于圈子的问题,例如程序员的圈子里面对他有兴趣的基本都是程序员,感觉是一直在一个圈子里面重复的爬取。另外脉脉网队这个 api 还做了限制,连续访问多次的话就会回复报错信息,但我访问网页的话信息还是能正常显示的,不晓得该怎么解决。。。
求各位大神指点
1
ys0290 2017-08-10 12:11:39 +08:00 via iPhone
脉脉是不是含情脉脉的意思?
|
2
shuizhengqi OP @ys0290 一款职业社交软件
|
4
lwwenlong 2017-08-10 13:31:32 +08:00
什么原因停止没有说啊,请求次数限制的话,可以使用代理。
|
5
shuizhengqi OP @lwwenlong 感觉是我的 cookie 被禁了,换了 ip 也是访问不了
|
6
joyqi 2017-08-10 14:07:04 +08:00
入职脉脉,哈哈,开个玩笑,这是违法的
|
7
shuizhengqi OP @joyqi 爬虫哪个不违法。。。就是对脉脉这个社交圈子比较好奇
|
8
regicide 2017-08-10 14:29:59 +08:00
将大量的手机号导入到测试机通讯录(用 qq 同步助手),用手机陌陌扫通讯录,然后用 web 抓。
|
9
shuizhengqi OP @regicide 是脉脉,不是陌陌。。。
|
10
shuizhengqi OP @regicide 而且脉脉上有二度人脉跟三度人脉之分的,三度人脉想看都看不到
|
11
regicide 2017-08-10 14:50:06 +08:00
@shuizhengqi 打错了。。。。 三度确实看不到 这个方法你前面量扑上去,后面人脉会多起来的
|
12
shuizhengqi OP 大神在哪。。。
|
13
RiceChen 2018-03-09 17:06:06 +08:00
哥们,这个问题有下文了?
|
14
shuizhengqi OP @RiceChen 我后来就没搞这个东西了,或许现在能够解决这个问题
|
15
RiceChen 2018-03-12 08:54:13 +08:00
@shuizhengqi 这个方向有很高价值,值得深究啊。
|
16
shuizhengqi OP @RiceChen 主要是当时天天看脉脉,感觉影响工作,然后就不看了。。
|