1
lewisc402 OP 假设我想访问 a.html,结果服务器会重定向到 redirect.html?url=a.html,而redirect.html中是一些javascript代码,用来写cookie,那么我该怎么办才能访问到原网页呢? 求思路???
|
4
DearMark 2013-08-08 17:03:29 +08:00
我也表示非常关注!
|
6
pubby 2013-08-08 17:10:30 +08:00
分析出来然后在爬虫中模拟
|
7
pandada8 2013-08-08 18:11:34 +08:00
如果客户端的js用了某种算法的生成数据可以考虑在脚本中模拟一下算法,生成数据
或者直接使用 Headless 的框架 Zombie.js,Ghost.py,或者直接操作 selenium …… |
9
pandada8 2013-08-08 18:30:27 +08:00
参见 http://obmem.info/?p=848 别人写的……
|
11
RelativeLayout 2013-08-08 18:38:06 +08:00
casperjs 或者 phantomjs
|
13
yuan 2013-08-08 19:33:46 +08:00
使用现有的cookie:
Chrome 的 cookietxt-export 扩展( https://chrome.google.com/webstore/detail/cookietxt-export/lopabhfecdfhgogdbojmaicoicjekelh )可以将cookie导出为 wget 可识别的格式。安装好该插件后,登录需要抓取的网站,点击插件按钮,就可以导出为 Netscape 的 cookies.txt 格式。 如果使用 Ruby ,可以用 agent = Mechanize.new agent.cookie_jar.load(cookies_txt_file, :cookiestxt) Python 应该有类似的工具吧 |