首先回答一个肯定有人会问的问题
Q: 既然 Gboard 中文拼音输入这么弱,为什么不用 XX 输入法🙄:
A:因为不喜欢😏
⚠️为节约您的时间:
一直以来都感觉 Gboard 的中文拼音输入词库过于奇葩,而网上的很多观点是这个词库需要自己养,自从谷歌砍了词库同步的功能(或许还存在但基本上我就没有一次成功),前几天碰巧更新一次系统忘记了备份,数据就全部丢失了,于是想自己创建一个词库,一劳永逸。
其实网络上相关的词库有很多,但 Gboard 在导入的时候动辄需要数分钟,经常性的无响应,最后还发现导入的数据不全,似乎是有条数限制,于是也只能从简化数据的方向入手,直到前些天无意间看见了这样一个 issues
(这个 issues 的发布者也提供了一个词库数据库,你也可以用他提供的词库)
尝试了一下,的确可行,于是开始整合自己手上的所有数据
当前词库共有 1,085,476 个词语,包含以下内容:
所有数据均已进行去重精简
因为暂不清楚 Gboard 自带的词汇范围,双方肯定存在大量重叠,如果后期找到相关数据,会进行进一步精简处理。
前往 https://github.com/wuhgit/CustomPinyinDictionary/releases 下载压缩包。
下载后解压,得到 PersonalDictionary.db
releases 2020-11-01
PersonalDictionary.db
SHA1: FB0A45C087627DBD12D032E0B06359842F6291BE
MD5: 5B0CC9F85D942404F3608330C81608DE
将其复制到您手机这个目录中:
/data/data/com.google.android.inputmethod.latin/databases
如果你有用 Tasker ,可以将 PersonalDictionary.db
置于手机 Download
目录,再导入执行我提供的一个 Tasker 配置文件 即可。
由于是采用数据库替换的方式,您现有的个人词库将会被覆盖,请自行备份相关数据,数据位于:
/data/data/com.google.android.inputmethod.latin/databases/PersonalDictionary.db
在导入之前,请确保 Gboard 不是您手机上唯一的输入法,以免发送其它意外。
词库导入后,可能需要一点时间后才能在输入时感知到新词,期间 Gboard 可能会在通知栏以 正在改善您的打字输入体验 进行提示。
如果一切顺利,您可以在 Gboard 设置 > 字典 > 个人字典 > 中文(简体)
查看最终导入的数据。
好了,就这样,后续应该会有更新,也可能没有,随缘吧~
如果哪位有使用这个数据库,看能否有空帮忙做个测试
目前发现 Gboard 有两个选项 有可能 会造成输入时候选词的优先级问题
选项位于 Gboard 设置 > 高级 > 学习
因为在以前的使用过程中,我发现了很多联想词汇的错误,基本集中在 “的地得” 以及一些谐音成语上,所以我把它们都关闭了
而后有V友反应使用我提供的词库后,输入时很多词语出现了问题,而他的这两个选项是打开的,这也似乎是系统默认的设置
如果各位有方便的时间,也请测试一下是不是会出现类似的问题,谢谢!
因为上一个版本使用了包含大量错别字的词库数据,经 @ryh 提醒,我对所有数据进行了排查,现已将这些劣质数据进行了剔除。
当前词汇量 854,215
,很遗憾未能满足我标题中所宣称的数量
在进行此次更新时,您可能需要:
为获得更好的使用体验,建议对 Gboard 中以下设置进行修改:
Gboard 设置 > 高级 > 学习
词库还会继续更新,欢迎对使用情况进行反馈
由于 V2EX 限制了每个主题至多可附加3条附言,下一次更新将直接在回帖中说明
1
minami 2020-11-01 15:59:00 +08:00 via Android
赞,回去试试
|
2
Blanke 2020-11-01 16:05:00 +08:00
好东西,之前我也自己制作过 gboard 词库
|
3
jianzhao123 2020-11-01 16:38:10 +08:00 via iPad
额,我发现了一个问题 gboard 文件目录下,并没有 databases,一加 7T,氧。
|
4
haozi1986 OP |
5
pC0oc4EbCSsJUy4W 2020-11-01 17:50:49 +08:00
为了皮肤,我屈服百度了
|
6
jianzhao123 2020-11-01 17:58:08 +08:00 via Android
@haozi1986 /data/data/com.google.android.inputmethod.latin/databases/PersonalDictionary.db
第一个 data 无法找到,找到的是 Android/data/com.google.android.inputmethod.latin/里面只有一个 cache,手动新建文件夹也不行,手机已 root 。 |
7
muayang 2020-11-01 18:09:40 +08:00 via iPhone
感谢了
|
8
1234rty 2020-11-01 18:13:43 +08:00
@jianzhao123 你这明显是内部存储下的路径 /sdcard/Android/data,正确的是绝对路径 /data/data
|
9
jianzhao123 2020-11-01 18:23:23 +08:00 via Android
@1234rty 感谢,已经找到了。
|
10
haozi1986 OP @jianzhao123
你安卓版本和 Gboard 版本是多少啊? 我这边看了一下,我主力机 Android 11 + Gboard 10.0.01 还有副机 Android 5.1.1 + Gboard 9.0.10 ,数据库目录都是在那里,莫不是氧 OS 改了什么路径? |
12
jianzhao123 2020-11-01 18:24:41 +08:00 via Android
@haozi1986 大概翻了一下😂😂,词库全是全拼的吗,有没有双拼的?
|
13
haozi1986 OP @jianzhao123 因为我没有用双拼,所以没加这方面的数据,另外也考虑过非全拼,比如仅仅用首字母进行输入,但这样数据就会增加很多,所以暂时也没这个打算
|
14
Jirajine 2020-11-01 18:34:47 +08:00 via Android
感谢,已经用上。
|
15
sky96111 2020-11-01 18:52:48 +08:00 via Android
用上了,但出现了一些奇奇怪怪的候选词优先级问题
![]( https://i.niupic.com/images/2020/11/01/8WoT.jpg) “不是”甚至直接失去了出现在首选词和第一页候选词的权利… ![]( https://i.niupic.com/images/2020/11/01/8WoU.jpg) ”但是“被奇怪的词语抢先 ![]( https://i.niupic.com/images/2020/11/01/8WoV.jpg) “词语” ![]( https://i.niupic.com/images/2020/11/01/8WoX.jpg) “首选词”被强行拆分… ![]( https://i.niupic.com/images/2020/11/01/8WoZ.jpg) 总之…用户词典优先级过高,很多时候会冲散正常的连祠和名词,或者降低它们的出先权重,不太适合用于拓展词库。还世感谢 lz 对改善 gboard 词库的努力,但词库这东西还是自记养比较合适。。 |
16
miku831 2020-11-01 19:00:13 +08:00
不 ROOT 可以用吗?非要 ROOT 就算了,系统安卓 10 的 EMUI
|
17
haozi1986 OP @sky96111
不应该啊,我测试了你刚刚提到的这几个词语,都不是你图片上面的这种情况啊 ![测试]( https://i.niupic.com/images/2020/11/01/8Wp5.jpg) |
18
sky96111 2020-11-01 19:44:39 +08:00 via Android
@haozi1986 刚开始替换完成没出现异常,但也没感受到词库的变化,就重启了一下手机。生效后直接变得很奇怪,一个词拼音即使被完全命中,也会被词库里另一个部分命中的词替代。而且输入的分词也发生了改变,几乎每一个词都被拆成了单字命中比如上面我的“不是”,在不用词典的情况下是 bu shi,用了词典却变成了 b u s h i……
|
19
sky96111 2020-11-01 19:50:02 +08:00 via Android
@haozi1986 奇怪了。这不应该和版本有关系吧。但从理论上,用户词典是用来添加一些私有的词语,在匹配时优先级是最高的,用来补充平时输入的词语词典可能确实不太合适
|
20
imn1 2020-11-01 19:59:03 +08:00
root ... 我节省时间了
目前用同文输入法,只是缺手写输入,词库添加不成问题 |
21
PhyllisLin 2020-11-01 20:01:26 +08:00 via Android
不需要 root 吧,直接导入就行
|
23
haozi1986 OP @miku831 @imn1 @PhyllisLin
因为我手上没有未 root 的设备,我没办法测试不用 root 能否替换,所以不太确定,只能说“以下操作可能需要 root” 按常理,如果要替换 data 目录下的文件,应该是需要 root 的 @imn1 同文输入法我也用过一段时间,感觉不太顺手,后来就放弃了 @PhyllisLin 直接导入可能会假死甚至失败,所以我直接把数据库替换了 |
24
haozi1986 OP |
25
imn1 2020-11-01 20:37:09 +08:00
@haozi1986 #23
同文输入法,或者说 rime,这种“完全匹配”式的输入法,是老旧输入法的延伸,基本没什么算法可言,对于输入法依赖重度用户来说,特别是整句输入,体验是比较糟糕的,我属于轻度用户(三天打不够三个汉字的人),无联网权限更重要,😄 |
26
qq7790586 2020-11-01 22:52:07 +08:00
现在用的是谷歌版的讯飞,习惯了讯飞的语音输入
|
27
Rhilip 2020-11-02 08:55:25 +08:00
会考虑提供可以直接导入导出的版本吗?毕竟现在手机不 root 了。。
|
29
haozi1986 OP @sky96111 #19
问个问题,在你 Gboard 设置 > 高级 > 学习 中,个性化设置 和 改进语音和输入功能…… 这两个选项是打开还是关闭的啊?我这边测试了一下,如果是打开的,某些词语的确会出现如你所说的问题,我之前用的时候一直是关闭的,如果不嫌麻烦,能否验证一下呢,谢谢 |
30
sky96111 2020-11-02 11:11:54 +08:00 via Android
@haozi1986 我都是开着的,可能是这个问题了…不过我昨晚已经把词库养回来了,不太想再删一遍…不能测试了,不好意思啦
|
32
sky96111 2020-11-02 11:18:50 +08:00 via Android
@haozi1986 但我又有了一个想法,关闭这两个选项,gboard 会不会直接不使用那个数据库文件了呢?
|
33
haozi1986 OP @sky96111 #32
我确定是可以用这个数据库的,因为我在开始制作这个数据库前就是关闭的 之前输入的时候,Gboard 提供的很多词语我都发现了有问题,比如“的地得”不分,很多成语也出现了谐音错字的问题,我当时猜测会不是这联想功能被带偏了,比如可能有很多用户大量的使用错误的词汇,提高了它们在整个词库中的权重值,造成系统默认它们是正确的于是推送给了更多的用户 于是就把它们都关闭了,而后我这边就很少出现这些问题了 当然,也可能是我前段时间升级系统丢失了所有数据后整个重置的原因,我现在不确定,所以希望有谁可以帮忙测试一下是不是与这几个选项有关 目前因为这个数据库收录的都是全拼,在匹配的时候肯定也是有很大问题的,一切都有待进一步测试 |
35
hyplddfx 2020-11-02 14:56:55 +08:00
坚持 qq 输入法最大原因是,广告几乎没+pc 手机词库同步
|
36
ryh 2020-11-02 15:14:21 +08:00
|
38
ryh 2020-11-02 15:34:25 +08:00
还有好多同拼音的词
yibigouxiao 一笔勾消 zh-CN yibigouxiao 一笔勾销 zh-CN ... yibimosha 一笔抹杀 zh-CN yibimosha 一笔抹煞 zh-CN qichizhiqu 七尺之躯 zh-CN qichizhiqu 七尺之驱 zh-CN qizongqiqin 七纵七擒 zh-CN qizongqiqin 七纵七禽 zh-CN 认真的吗?同拼音的是不是再排查下? |
40
joyc 2020-11-02 16:22:13 +08:00
不错,就喜欢一言不合就 DIY 。回去试试
|
41
vector2axis 2020-11-03 11:08:55 +08:00
赞
|
43
YAHOOQQ 2020-11-03 15:29:54 +08:00
赞一个,已使用。
|
45
0A0 2020-11-06 12:16:57 +08:00 via Android
基础词库修正好的话,以后更新就可以通过导入词库的增量更新了。不需要每次都替换 db 。
|
46
haozi1986 OP @0A0
我测试了一下,大概是这样: 如果词库里已有词汇,当达到一定数量后,通过手动导入的词库似乎就不会出现在列表中,好像是有条数限制。 也就是说,还是得替换数据库…… 我不确定这个是普遍现象,但在我这边几台设备上面都是 |
47
uestc 2020-11-07 09:48:17 +08:00 via Android
赞👍已经用上,希望能不断优化!
|
48
0A0 2020-11-07 15:02:58 +08:00
@haozi1986 每更换数据库时会连带着把用户词频和使用习惯一起清空,相当于每次都从头开始再养。
以及这几天试下来还是有很多词频出现问题。gboard 最影响输入体验的其实到不是词库,而是词频的准确性。没有云库的前提下,词频完全只能靠长时间养成比较麻烦。 |
49
haozi1986 OP @0A0 #48
从词库方面来说,其实我也不知道该怎么处理 词频问题暂时无解,因为 Gboard 的逻辑实在有点蠢,要么无脑把用户词典放首位,要么就把用户的输入分割成好几部分给你一堆不知所以的词,即便你要输入的词在词库里存在,并且你的输入也正确,但它就是不给你提示你需要的…… 这个数据库里存储的只有用户自定义词语,即便没使用我修改的这个也是如此,你所担心的用户词频和使用习惯等相关数据并不是存储在这个里面的,并且更换数据库其实也可以不必清空缓存,重启之后应该也是可以生效的。我建议清空缓存,只是为了可以快速生效,仅仅是清空缓存的话,似乎也并不会影响那些数据。 Gboard 的云词库其实有很多错字错词,并且出现得很频繁,我之前以为只有它是这样,结果这段时间经过整理网上各大流行输入法的词库后发现,这是个普遍现象,应该是词汇和词频被所谓的大数据带偏了,所以我从一开始就准备不再依赖云词库,但如果全部放在本地,数据量又成了一个大问题,并且不是谁都需要这么多这么杂乱的词汇的。现在我也只是靠自己的想当然,觉得哪一部分词汇是不怎么常用但的确有很大输入需要的,然后把它们加到这个数据库里。 我觉得最理想的解决方式,大概就是国内这几家做得还不错的输入法厂商,提供给用户一个纯净的、不耍流氓的输入法版本,只有输入法相关的功能,而不是一个个都做成“带广告的操作系统”,毕竟也只有它们具备这个实力,但这可能永远都不可能发生。 |
50
vzhvmb 2020-11-10 14:29:43 +08:00 via Android
相信用 gboard 的小伙伴很多看重双拼纠错的,大佬,请问怎么转成小鹤双拼词库?
|
51
shangrenxi 2020-11-11 10:41:50 +08:00
ios 能用吗 ?
|
52
haozi1986 OP |
54
live2490 2020-11-23 23:14:23 +08:00
支持一下
|
55
loveanaminio 2020-12-18 23:08:13 +08:00 via Android
挺不错的。
|
56
gricn 2021-01-24 21:32:39 +08:00
深蓝词库转换 PC 端个人词库并导入不就可以了吗,不用 root 那么麻烦
https://github.com/studyzy/imewlconverter |
59
mizuki 2021-02-04 21:20:21 +08:00
感谢,顺便提供一个不需要 root 的方法,需要解锁 BL
可以用 fastboot boot 刷临时 REC,进 rec 后 mount data,再复制进去,注意修改权限,之后重启就行 |
60
haozi1986 OP @mizuki
也是个不错的方法,多谢! 不过我觉得既然都解锁 BL 了,还是顺带 root 了吧,至少更换这种文件的时候不用重启,如果要规避大多数检测是否 root 的应用,magisk hide 已经足够了 |
61
francis59 2021-02-23 16:14:33 +08:00
网上看到的一个不用 root 的方法:下载搜狗细胞词库或者 PC 端搜狗输入法词库导出,然后用深蓝词库转换成 Gboard 格式再导入
https://sspai.com/post/56697 |
62
francis59 2021-02-23 16:17:34 +08:00
@francis59 文章是 19 年 9 月的
深蓝词库转换 20 年 7 月的 v2.9.0 已经增加对 GBoard 词库导入导出的支持 https://github.com/studyzy/imewlconverter/releases |
63
sastar 2021-04-19 11:17:01 +08:00
看到楼主发的[深蓝词库的 issue]( https://github.com/studyzy/imewlconverter/issues/111)中最后提到,直接导入可能会出现点击个人词典闪退的问题(我出现这个问题了🤣),建议清除所有数据后,通过 dd if=PersonalDictionary.db of=/data/data/com.google.android.inputmethod.latin/databases/PersonalDictionary.db 命令导入,直接复制粘贴的话可能会出现以上问题。命令可以通过 termux 执行,或者直接通过楼主的 tasker
|
64
e1d4py0KiD6KgqkQ 2022-04-28 14:29:10 +08:00 via Android
手头就一台 LG V30+,原装安卓 9 ,不敢 root 也不敢 BL ,说是会删除所有数据,脑壳疼
|
65
e1d4py0KiD6KgqkQ 2022-04-28 20:15:53 +08:00 via Android
去你那 GitHub 上下载 dict 格式的词库,用深蓝 QQ 拼音转 Gboard ,结果也不行🙈🙈没招了
|
66
haozi1986 OP @xuxinglin8888
数据量太大了,要是 Gboard 可以直接导入这么多数据,我也不会这么折腾……不过现在已经换成通过 Magisk 模块来更新词库,比以前方便多了 解 BL 是会删除全部数据,我觉得如果有条件,先备份现有数据到其它地方,解锁完成后恢复也不是不能接受,这个就看个人的选择了 |
67
Weyeeep 2022-05-04 23:33:44 +08:00
已经刷入,正在体验,谢 up
|
68
zhangberry 2022-12-10 22:59:35 +08:00
为了装这个词库,专门刷了 root...
|
69
KomeijiKoishi 2023-08-04 01:21:31 +08:00 via Android
楼主直到上个月还坚持更新,这个词库真的太好用了,感谢楼主
|