pyspider 如何对某一个抓取值去重,不是 url 去重
比如我抓了很多文章,同样文章标题的不去抓取,过滤掉
请问怎么怎么设置,谢谢
1
est 2019-04-23 09:54:27 +08:00 via Android
pyspider 都会了还不会去重?最笨的办法就是用 == 逐个比
|
2
seaguest 2019-04-23 09:59:24 +08:00
数据量大的时候可以考虑 bloom filter,cuckoo filter。
|
3
ztcaoll222 2019-04-23 10:00:40 +08:00
不就是和 url 去重一样吗
url 你怎么去重标题就怎么去重 |
4
Northxw 2019-04-23 10:05:32 +08:00
如果你存数据库,可以尝试 md5 一个唯一值,然后检查(或者布隆过滤器?不清楚)
|
5
binux 2019-04-23 10:06:37 +08:00
|
6
lanpong 2019-04-23 10:19:28 +08:00 via iPhone
楼上作者出没
|
7
KyonLi 2019-04-23 11:59:17 +08:00 via iPhone
自定义 taskid 吧
|