只导了 126 的数据到 mysql 已经有 10G ,做了索引, like 语法查起来还是很慢。(平均: 45s 设备: 256SSD+i5 ) 要想达到 163password.download 查询的速度,该用什么技术或架构?
1
Bryan0Z 2016-04-04 14:43:03 +08:00 via Android
这网站为什么会返回乱码,是我的密码还没泄露?
另外参照 找密码网的源码,人家 500G 数据, 30 多个库速度也在 10 秒以内 |
2
zonghua 2016-04-04 14:43:25 +08:00 via iPhone
按首字母分库啊,并行查找
|
3
yeyeye 2016-04-04 14:46:05 +08:00 4
他的是精确查找 你的是 like 查找 不是一个道理吧。只是要精确查找的话 还可以分成很多个表,查询速度必然迅捷无比。最简单的按 2 位首字母分表就可以分至少 1296 个 查询的时候做下判断就可以精确的去相应的表里面查 性能直接提升 1296 倍 你的 45S 马上就变成了 0.0347S
|
4
dapang1221 2016-04-04 14:53:48 +08:00
Sphinx
|
5
kslr 2016-04-04 15:16:37 +08:00
话说那个 TXT 里面乱七八糟的格式,我导了 100 万就放弃了,太麻烦了。
|
6
Flygoat 2016-04-04 15:32:11 +08:00 via iPhone
mongodb ?
|
9
liyvhg 2016-04-04 15:44:22 +08:00
全部加载到内存
|
12
ucaime 2016-04-04 15:50:09 +08:00 via iPhone
倒入到 ES 集群了,嗯,正在倒入,还有两个包,几个亿数据毫秒级。妈蛋这次的数据重复太多,去重略耗时间
|
14
ifconfig OP @kslr
LOAD DATA INFILE 'path/info.txt' INTO TABLE xxx FIELDS TERMINATED BY '----' LINES TERMINATED BY '\n'; 多看点参数说明就好了 |
16
slixurd 2016-04-04 16:03:42 +08:00
Elastic Search 啊,虽然 like 这种通配符匹配还是很慢,但是分词后的模糊查询超快的,我们现在一个 index 就是 80G ,速度还超快。
|
18
SlipStupig 2016-04-04 16:17:49 +08:00 1
mongodb+es 几十亿都没任何问题,这种杂乱数据注意一下清洗,如果要做规则或者杂乱格式转发请用 kettle ,不过话说学会都是一个月后的事情了
|
19
SlipStupig 2016-04-04 16:18:26 +08:00
求裤子分享
|
20
badcode 2016-04-04 16:23:40 +08:00
|
21
ynyounuo 2016-04-04 16:25:27 +08:00 1
不先整理一下?我全部转为 UTF-8 然后合并到一个文件并且 sort -u 之后数据就只剩 12 GB 了,这还有大量重复的信息呢
|
22
lichao 2016-04-04 16:32:47 +08:00 via iPhone
这破事,网易官方有回应吗?
|
23
RangerWolf 2016-04-04 16:55:06 +08:00
我觉得 163password.download 并不快啊~
|
24
ucaime 2016-04-04 17:20:33 +08:00 via iPhone
@lichao 网易太鸡贼了,第一把所有曝出的库的邮箱标记为可疑,各种提示。第二把关键邮件比如苹果发来的要求手机验证查看,装糊涂吧
|
26
dingyaguang117 2016-04-04 17:28:41 +08:00
163password.download 是不是不全啊? 我查了没有
|
27
dingyaguang117 2016-04-04 17:30:41 +08:00
@ynyounuo 为什么还需要转码? 邮箱密码不应该 ascii 就够了吗
|
28
badcode 2016-04-04 18:04:38 +08:00
有意思,一张图片一个小时多而已
来自 v2 的 views 就有 300 多次 |
29
guoer 2016-04-04 18:14:13 +08:00
你们都下载好了?
|
30
jiongjionger 2016-04-04 18:22:39 +08:00
只有 50 多 G ,直接丢内存得了
|
31
soway 2016-04-04 18:28:49 +08:00 via Android
类似搜索引擎的做法
|
32
ianisme 2016-04-04 18:36:27 +08:00
grep -nr 自己的邮箱啊!! *
|
34
SlipStupig 2016-04-04 18:57:56 +08:00
求下载地址啊
|
35
ifconfig OP @SlipStupig v 站内就有的
|
36
jhaohai 2016-04-04 19:49:49 +08:00 via iPhone
索引对 like 无效
|
37
kuzhan 2016-04-04 19:50:14 +08:00
分表
|
38
moult 2016-04-04 20:06:35 +08:00
模糊查找的话,还是基于 Lucene 吧。
精确查找的话,关系型数据库也不会慢吧。或者试试看 Redis 。 |
39
strwei 2016-04-04 20:07:35 +08:00
试试文档数据库或者 Redis
|
42
micookie1 2016-04-04 20:29:39 +08:00
我忘记密码的终于找回了
|
44
linescape 2016-04-04 20:36:14 +08:00
@dingyaguang117 我查了有我的邮箱但是不是我的密码。。。
|
45
ucaime 2016-04-04 21:53:13 +08:00
|
47
TemporaryID 2016-04-04 23:23:19 +08:00
导入数据: http://pastebin.com/2PyKHPjn
Web 服务: http://pastebin.com/SErx0WNj 用的是 LevelDB 导入后大概 25GB 服务器在 DigitalOcean 上 楼上 @yeyeye 说的对,因为是精确匹配,所以快 还有真的不要 DDoS 我好吗,我真的不是做这个的,只是玩玩 T_T |
48
ffwalle 2016-04-04 23:53:25 +08:00
52g 根本小菜一碟,记得加索引。
|
49
ffwalle 2016-04-04 23:59:29 +08:00
哦,看到你说做 like 查询,呵呵,如果真的要快,那做 ngram 吧。。。
|
50
powtop 2016-04-05 08:39:04 +08:00
求裤子
|
51
xinyewdz 2016-04-05 09:03:02 +08:00
刚查了,密码是四年前的。
|
52
wyx 2016-04-05 09:56:24 +08:00
歪个楼,解压密码是啥?
|
56
thanksir 2016-04-05 11:04:41 +08:00
靠,我的泄露了
|
57
soulteary 2016-04-05 12:27:10 +08:00
@ynyounuo 粗筛选可以在转码前先执行 shasum 简单计算 hash ,然后再做分词。算了一下,大概重复的数据有 438 , 38.62%左右都是重复的。
如果先转码,恐会浪费不少时间(机器多可忽略...) |
58
wwek 2016-04-05 12:53:51 +08:00
没裤子穿,需要裤子
|
60
soulteary 2016-04-05 16:03:30 +08:00
|
61
SlipStupig 2016-04-05 16:10:34 +08:00
@ifconfig 实在没找到地址
|
62
dingyaguang117 2016-04-06 16:03:46 +08:00
@ynyounuo sort -u , 请问你内存多大呢。。。 花了几个小时?
|
63
ifconfig OP @dingyaguang117 内存 8G , i5 ,已经过去一个小时了, MacBook 好烫好烫好烫好烫
|