这个算法题难道了多少人？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 3328 天前的主题，其中的信息可能已经有所发展或是发生改变。

有 f1 、 f2 两个大文件，里面有若干行 IP 记录，大小分别 1T 左右，现在在机器内存只有 1G 。求这 f1 、 f2 两个文件的差集。

差集

文件

算法

机器

6 条回复 • 2016-03-21 11:11:21 +08:00

rock_cloud

2016-03-21 10:55:54 +08:00

1T 的文本，看起来有大量的 IP 是重复的啊，至少 16 倍的重复量（如果我没算错）。

dingyaguang117

2016-03-21 10:57:21 +08:00

先合并排序，再遍历比较一边

3dwelcome

2016-03-21 10:58:02 +08:00

这不就是基础面试题，算每行 ip 的 hash, 根据 hash 最前面两位值来进行 255 数据分组， 1T 数据就可以被分成 1T/255 处理，依此类推，把每组装到 1G 内存里计算冲突，留下的就是差集。

其实楼主这是伪命题， ip 地址表示成 unsigned int, 也就 4G 范围, 如果按照 1bit 占位表示， 4G/8 = 530M, 在 1G 内存里完全可以装下的。

hobbyliu

2016-03-21 11:07:18 +08:00

恩这个题目出的不够严谨，换成文件里面有若干不重复的字符串

tabris17

2016-03-21 11:08:22 +08:00

说不定是 IPv6 的地址

Moker

2016-03-21 11:11:21 +08:00

上次的题目不是就差集而是算出每个 IP 的数量并统计出来