比如一个页面 上面就是一个表格 不定时的会增加一行信息 如何对这样的类型进行增量爬取呢,只爬取增加的内容?
1
hardman 2018-03-27 19:41:05 +08:00 via Android
判断行数固定时间就 OK 不停检测行数
|
2
kkzxak47 2018-03-27 20:01:40 +08:00 via Android
不可能只爬取增加的内容,你不把网页拿下来,怎么知道有没有变化?
自己做去重 |
4
locoz 2018-03-27 23:51:13 +08:00 via Android
每一行有没有 id 之类的标识 有的话可以把 id 存到 redis 增量的时候查 redis 就行了 速度比较快
|
6
ebingtel 2018-03-28 09:22:45 +08:00
根据链接,保存的时候 INSERT IGNORE?
|