RT,Scrapy如何爬瀑布流的站点?
1
est 2015-06-05 13:01:03 +08:00
我遇到了这个问题,解决办法是自己写。
|
2
mthli 2015-06-05 13:11:02 +08:00 via Android
瀑布流有"page="吧,试试找找看看?
|
3
kisshere 2015-06-05 13:34:47 +08:00 via Android
抓包,提取网址,实在不会用casperjs吧
|
4
mahone3297 2015-06-05 13:36:39 +08:00
@est 自己写是什么意思?
|
5
nikoukou 2015-06-05 14:03:12 +08:00
casper.js可以试一试,就是速度比较慢,相当于cli的按键精灵。。
|
6
rphoho OP |
8
alexapollo 2015-06-05 14:22:58 +08:00
上内核做渲染!
|
9
duobei 2015-06-05 14:37:54 +08:00
@alexapollo 这个建议不错
|
10
kisshere 2015-06-05 16:16:14 +08:00 via Android
@rphoho 刚都说了,叫你chrome F12键抓包,一般如果他的MySQL不是cursor分页的话,可以直接按照pageid递增就抓取了,遇到瀑布流是好事,这样更容易抓取
|
11
kisshere 2015-06-05 16:18:08 +08:00 via Android
瀑布流一般都会ajax加载json,更容易抓取和解析
|
12
allen3921 2015-06-05 19:19:04 +08:00
直接分析js
|
13
ChiangDi 2015-06-05 19:23:44 +08:00
当然是看他的 js 代码,有时候可能爬虫都不要写就是一个 json API
|
14
alexapollo 2015-06-06 00:35:06 +08:00
@duobei 其实这是最标准的方法。。应该。。
|
15
onlyice 2015-06-06 20:21:56 +08:00
如果不是瀑布流,你会怎么抓?
其实是不是瀑布流跟 scrapy 没什么关系,只跟网站的 HTTP 接口是怎样的有关系。 |
16
mingyun 2015-06-07 10:20:24 +08:00
casper.js没用过,有这方面的案例吗
|