1
azuginnen 2015-05-06 16:49:11 +08:00
这样反而好呀,你用api过去返回json不是好解析么,而且明显的,热搜榜那里随便看看,滑到头上的时候又来xxx条新微薄了,肯定是ajax一遍一遍的..............
|
4
alansalexer 2015-05-06 21:50:31 +08:00 via Android
根据关键词搜索采集新浪微博,这条路坑比较多,当然还是要具体需求具体分析。
首先,你需要模拟登录,使用webkit渲染页面,页面渲染好之后再取里面的信息。这方面可以利用的工具有python的qt-webkit, nodejs的phantomjs/casperjs。 其次,新浪会在你取到第50页左右的时候弹出验证码,要么手动输入,要么想办法自动识别验证码(我没有做过)。 总之如果你以前没有太多爬虫方面知识的话,选新浪微博的搜索页面有点困难了,但学习一下总是好的。 |
5
endoffight 2015-05-09 00:00:18 +08:00 via Android
|