1
mingyuejingque 2016-06-14 10:16:58 +08:00 1
仔细看 phantomjs 官网自带的 example 基本可以完成小需求了。
|
2
gimp 2016-06-14 10:30:51 +08:00 1
https://blog.ishell.me/a/python-selenium-phantomjs.html
之前用 phantomjs 抓取时写的笔记 https://blog.ishell.me/a/selenium-with-xvfb.html 后来发现 Linux 下也可以用 Firefox/Chrome 等浏览器 http://www.seleniumhq.org/docs/03_webdriver.jsp 当然,看官网教程肯定是最好的 动态网页可以先尝试找数据接口,如果找到接口模拟请求数据效率会高很多。找不到,或者模拟不了,那就用 selenium+浏览器 的方式处理吧,简单粗暴,只是效率低点 |
3
brucedone 2016-06-14 11:40:10 +08:00
|
4
Yc1992 2016-06-14 13:31:11 +08:00
splash 是一个轻量级的渲染服务,可以执行简单 js
|
5
practicer 2016-06-14 17:41:21 +08:00 1
强烈推荐 《 Python 网络数据采集》,从第十章和十一章专门讲解如何爬取 JS 动态内容和图像识别,本书用一个爬取 flash 电子书的例子来说明,强烈推荐给题主。
|
6
coolloves 2016-06-14 21:46:26 +08:00
马克
|
7
suduo1987 2016-06-15 10:04:40 +08:00
一般都用 GAS 爬
|