1
binux 2016-06-24 19:12:17 +08:00
读一下能耗多少性能啊。你爬的数据量大还是用户的访问量大。
|
2
ooonme 2016-06-24 19:13:13 +08:00 via iPhone
一般爬的时候不判重,下游数据清洗的时候解决重复问题
|
3
solomaster OP @binux 爬的数据量大。但是现在还没到瓶颈。只是有这个担忧。
|
4
solomaster OP @ooonme 下游清洗数据之后,会删除爬虫数据库的原始数据么?
|
5
kslr 2016-06-24 19:34:31 +08:00
@solomaster 最简单的就是最好用的,你硬要折腾可以看看布隆过滤器。
|
6
ooonme 2016-06-24 19:43:57 +08:00 via iPhone
5 楼说了,用过滤就好了,数据分析一般不修改数据只做转换
|
7
keysona 2016-06-24 20:29:10 +08:00
url 判重的看布隆过滤器吧。
数据的话查一下就好吧.... |
8
warmheartli 2016-06-25 14:36:20 +08:00
看你是想过滤 url 重复的还是过滤内容重复的,过滤 url 那就 url 去重没什么好说的,如果想对内容去重,可以先粗算再精算,粗算就是采取找到正文里句子最长的那个句子,算签名去重,精算就是当发现签名一样的时候再挨个句子判断
|
9
askfermi 2016-06-25 15:56:12 +08:00
网址的话用 Bloom Filter
|