我想爬取简书在某一时间段的帖子,比如 2013 年 4 月 13 — 2013 年 5 月 13
想尝试的思路如下:
百度
实现:用 Python 直接请求搜索的结果,然后把得到的网址重定向一下得到真正的简书网址,然后对真正的网址进行请求
问题
先谢谢各位大 V,:)
1
shaxiboy 2017-05-02 19:19:27 +08:00
我是进来学习的😁
|
3
sampeng 2017-05-02 19:52:56 +08:00 1
用搜索引擎并不靠谱。。会不停的重复。。。
|
5
yuluofanchen 2017-05-03 08:17:54 +08:00 via iPhone 1
用谷歌,但实际不是很准。
|
7
wisefree OP @yuluofanchen 嗯嗯,我也只要一个大致的结果,
|
8
wisefree OP @sampeng 爬主站,难度太大,因为好像只有把所有的帖子都爬下来,才能分析某段时间的发帖量
|
9
sampeng 2017-05-03 11:15:12 +08:00 1
如果只是需要一个大致的结果,所有的帖子的响应 header 头上都有 Date 字段。刚去看了一眼,都是和发帖时间对应的。那么问题就简化成,扫描所有帖子。直 请求过去。看看 Date 头。
再简化一下,你如何获得所有帖子的列表。这个比你纠结用搜索引擎应该难度更小一点吧。。 |