### **背景**:
最近几天回复列表总是见到有人回复 "mark" / "战略性 mark"。在我看来,这样既没有践行 "让回复对别人有帮助",也扰乱别人看帖,毕竟有收藏可用。
### **我想**:
我想写一个爬虫,把内容简单的 "mark"er 挑选出来,人工查看回复历史决定是否要 Block 这个用户
### **想问**:
- 对 V2EX 的服务器压力不大吧?
我将不带有 cookie 爬取,因为我这个爬虫门外汉觉得带了 cookie 会让降低 CDN 的作用,使后台运算量增大
-
### **爬虫机制简述**:
最早处理 20181101 的帖子:
每帖在发布( 5 日,30 日,180 日)后进行一次回溯:
对每一层回复来说:
1
skyqqcc 2018-11-22 03:06:53 +08:00 via Android
看完了,没看懂....🙃🙃🙃
|
3
sdtfll 2019-05-31 22:43:24 +08:00 via Android
不管压力大不大,你总会要遍历所有的贴,
|