打算抓取 http://bbs.ngacn.cc/thread.php?fid=-7&page=1 里面的帖子,找出热点帖子。 python 写了脚本,但运行时总是出错。
代码如下:
https://gist.github.com/anonymous/99ef5fb95bd8e4c72f1d
抓取分两步,第一次直接抓的页面里面有 js 在 url 上附加一个 rand 参数之后再次加载,但第二次抓取总是报错:
1
ksupertu 2015-10-14 13:47:49 +08:00 via iPad
Phantomjs
|
2
liiihhhh 2015-10-14 14:04:21 +08:00
|
3
heloman OP @liiihhhh 多谢! 看到 lite=xml 可以直接获得 xml ,但是查看 fid=-7 的页面总是要有一次再次加载的过程,手动构造了加 rand 的 url 但还是 get 数据出错,这个怎么破?
比如 http://bbs.ngacn.cc/thread.php?fid=7&lite=xml&page=1&rand=996 这个可以直接访问 但是 http://bbs.ngacn.cc/thread.php?fid=-7&lite=xml&page=1&rand=996 这个 url 已经附加了 rand 参数,但还是报错 |
4
heloman OP @ksupertu 这个好牛!似乎太复杂的样子~ 我现在已经附加参数模拟 js 行为了,应该和用 Phantomjs 效果一致吧,但还是出错
|
5
liiihhhh 2015-10-15 09:13:11 +08:00
@heloman 加 rand=996 这个参数是干嘛的? http://bbs.ngacn.cc/thread.php?fid=7&lite=xml&page=1&rand=996 可以获得数据啊
|