有 f1 、 f2 两个大文件,里面有若干行 IP 记录,大小分别 1T 左右,现在在机器内存只有 1G 。求这 f1 、 f2 两个文件的差集。
1
rock_cloud 2016-03-21 10:55:54 +08:00
1T 的文本,看起来有大量的 IP 是重复的啊,至少 16 倍的重复量(如果我没算错)。
|
2
dingyaguang117 2016-03-21 10:57:21 +08:00
先合并排序,再遍历比较一边
|
3
3dwelcome 2016-03-21 10:58:02 +08:00 1
这不就是基础面试题,算每行 ip 的 hash, 根据 hash 最前面两位值来进行 255 数据分组, 1T 数据就可以被分成 1T/255 处理,依此类推,把每组装到 1G 内存里计算冲突,留下的就是差集。
其实楼主这是伪命题, ip 地址表示成 unsigned int, 也就 4G 范围, 如果按照 1bit 占位表示, 4G/8 = 530M, 在 1G 内存里完全可以装下的。 |
4
hobbyliu OP 恩 这个题目出的不够严谨,换成 文件里面有若干不重复的字符串
|
5
tabris17 2016-03-21 11:08:22 +08:00
说不定是 IPv6 的地址
|
6
Moker 2016-03-21 11:11:21 +08:00
上次的题目 不是就差集 而是算出每个 IP 的数量 并统计出来
|