1
InDom 2022-07-12 17:43:16 +08:00
这不是知名面试题嘛?
用那个啥 bitmap ? 算了下需要用 1G 内存 or 磁盘? |
2
Reficul 2022-07-12 18:49:40 +08:00
bloom filter 过滤一遍,发现重复的放 hashmap 再来一遍?
|
3
sadfQED2 2022-07-12 19:36:33 +08:00 via Android 1
在我这里,就算是天王老子来了,我也是提工单申请一台大磁盘服务器处理
不过你这个是在数据库里面,跟磁盘大小有啥关系?写脚本遍历表,每个 uid 再去数据库查一次有几条,然后删除多余的不就行了 |
4
sadfQED2 2022-07-12 19:38:17 +08:00 via Android
根据主键 id 遍历表,不会出现文件排序,只要数据库还能查数量,哪怕磁盘 100%也不影响啊
|
5
wxf666 2022-07-12 20:17:43 +08:00
@sadfQED2 会不会他 uid 没加索引。。
即使一行索引只是存为 (uid: 4 Bytes, 页号: 4 Bytes),给 uid 加索引,至少也需要 (10 ^ 9) * 8 Bytes ≈ 7.5 GB 磁盘? 感觉 1 楼说的 bitmap 去重可行啊 如果 UID 为 4 字节,bitmap 需要 (2 ^ 32) bits / 8 (bits/Byte) = 512 MB 内存 /磁盘, 如果 UID 极差不超过 2 ^ 30 (约 10 亿 7300 万),bitmap 只需要 128 MB 内存 /磁盘 |
6
rrfeng 2022-07-12 20:18:09 +08:00 via Android
我一时间没想明白这是个 dba 题目还是…
|
7
wxf666 2022-07-12 20:26:38 +08:00
上面写错了,一行索引存为 (uid: 4 Bytes, 主键 id: 4 Bytes)
|
8
Jooooooooo 2022-07-12 20:50:45 +08:00
确实, 你都能有这么多数据了, 还具备处理价值, 申请一个更大的存储不是问题.
|
9
yogogo 2022-07-12 21:28:03 +08:00
哪家大厂这么扣,10 亿级数据库都不舍得加磁盘空间
|
10
dddd1919 2022-07-12 21:56:06 +08:00
读到另一个机器上查重,然后再回来删
|
11
nepiedg 2022-07-13 08:11:28 +08:00
布隆过滤器?
|