V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
v2register
V2EX  ›  程序员

求有空的程序员朋友写一个五笔编码查询与编辑软件

  •  
  •   v2register · 2018-09-18 00:29:09 +08:00 · 4945 次点击
    这是一个创建于 2243 天前的主题,其中的信息可能已经有所发展或是发生改变。
    先说一下:无偿,请不要喷我。

    我在做新世纪版五笔字型超大字符集编码,9 月底应该能完成 Unicode 11.0.0 全部 CJK 字符的初校。目前用的是文本编辑器来弄,7.17 项目开始,已持续 2 个月了,过程相当枯燥、苦逼...

    项目地址: https://github.com/CNMan/UnicodeCJK-WuBi06

    最近在想,如果把前辈们已经搞完的 86 版、98 版编码放在一起,互相借鉴、印证,该是多好的的一件事。但我不会编程,才来求助各位。

    软件的需求大致如下:



    数据源: https://github.com/CNMan/UnicodeCJK-WuBi

    数据源 txt 编码:UTF-8

    数据源 txt 格式:

    第一列:Unicode 编码
    第二列:Unicode 字符
    第三列:86 版五笔字型编码
    第四列:98 版五笔字型编码(目前缺 CJK-F )
    第五列:06 版五笔字型编码(暂无数据)(月底完成初校后会补上)
    第六列:笔顺(暂无数据)(月底会补上)

    数据库最好直接采用 txt 文本(或 csv 文本),如果不行,可以转为其他数据库格式

    字形展示:

    不依赖系统字体,采用 BabelMap 导出的字体图片,文件名格式统一为 U_xxxxxx.png ( xxxxxx 为 6 位 Unicode 编码,不足 6 位则前面补 0 ),按平面分文件夹存放

    字形图片展示 1:中华书局宋体(存放路径 FontGlyphs\ZhongHuaSong\Plane00\...Plane02\)

    字形图片展示 2:中易宋体(存放路径 FontGlyphs\SimSun\Plane00\...Plane02\)

    用两种不同字体可以防止出现个别字形错误导致编码错误,可以只支持两种字体,也可以支持自定义字体路径

    查询框:支持 Unicode 编码查询和字符查询即可

    修改按钮:按下后变为“保存按钮”,也可以分开

    最好能将结果直接保存到 txt 或 csv 文件中,如果不行,应可以由某种数据库格式转换为原始的 txt/csv 编码和格式。

    多谢!
    第 1 条附言  ·  2018-09-18 09:50:59 +08:00
    软件初衷的使用对象是五笔编码编、校人员,所以功能上“编辑”为主,“查询”为次。

    现在不比 10 来年前 86、98 版超大字符集编码时有很多人参与,后来增加的 CJK 字符编码基本都靠个人之力完成,三个版本也就主要是三个人而已。

    当然,查询功能适用所有五笔用户,目前也有同类软件、APP、网页等,还能显示拆分结构等更多信息,但字符集基本都是 GBK 或 GB18030-2000 ( CJK+CJK-A )
    第 2 条附言  ·  2018-09-19 20:03:35 +08:00
    FontGlyphs 已添加到 https://github.com/CNMan/UnicodeCJK-WuBi,包括:

    中易宋体:部分支持到 CJK-E ( 74712 字),中国大陆字形
    中华书局宋体:支持到 CJK-F ( 87870 字),中国大陆字形
    细明体:支持到 CJK-D ( 74594 字),中国台湾字形
    细明体_HKSCS:支持到 CJK-D ( 74594 字),中国香港字形
    花园明朝:支持到 CJK-F ( 87870 字),日本字形

    以上字体图片数量接近 40 万张,git clone 时找个网速快的时段和代理

    软件左边的字形图片展示区可以分为中国大陆字形(两种字体)、中国港 /台字形(各一种字体)、日本字形(一种字体)
    第 3 条附言  ·  2018-09-19 20:44:52 +08:00
    第 4 条附言  ·  2018-09-24 21:46:44 +08:00
    增加了汉仪的 2 款字体字形图片
    汉仪字典宋:支持到 CJK-B ( 70195 字 /图),中国大陆字形
    汉仪仿宋:支持到 CJK-D ( 74574 字 /图),中国大陆字形

    https://github.com/CNMan/UnicodeCJK-WuBi
    48 条回复    2018-09-19 12:26:35 +08:00
    jiafaner
        1
    jiafaner  
       2018-09-18 00:44:42 +08:00
    我没看懂需求
    1747479654
        2
    1747479654  
       2018-09-18 00:49:07 +08:00
    基本没人用五笔了,需求太小了.
    littleMaple
        3
    littleMaple  
       2018-09-18 02:01:49 +08:00
    这种东西感觉应该已经有人实现了?
    qsnow6
        4
    qsnow6  
       2018-09-18 02:06:09 +08:00 via iPhone
    没看懂
    20150517
        5
    20150517  
       2018-09-18 04:00:02 +08:00 via Android
    我是五笔用户,但我觉得我需要是一个好的五笔输入 app,查询 什么真不重要,现在百度什么都能拼音反查 的
    pyufftj
        6
    pyufftj  
       2018-09-18 07:15:59 +08:00
    我之前学五笔的时候用的是 chawubi.com ,手写输入查询编码,现在好像关了……不过学会以后需要查的情况也基本上没有了
    xxgirl2
        7
    xxgirl2  
       2018-09-18 07:22:35 +08:00
    rime 输入法按一下 z 键就有反查了
    因为专利问题不少人还在用 86 版

    现问题是 rime 自带的 ibus 码表不支持 E 区和 F 区
    xxgirl2
        8
    xxgirl2  
       2018-09-18 07:24:32 +08:00
    (按成 ctrl+enter 了) LZ 或许可以考虑给 rime 提交 pull request
    xuanwu
        9
    xuanwu  
       2018-09-18 07:30:02 +08:00
    写了个原型: https://github.com/CNMan/UnicodeCJK-WuBi06/issues/20 很丑而且缺功能. 不知是否楼主还需要.
    missdeer
        10
    missdeer  
       2018-09-18 09:02:36 +08:00
    字体图片在哪里呢
    Rheinmetal
        11
    Rheinmetal  
       2018-09-18 09:23:57 +08:00
    记得有人做过这种的 叫做 海峰五笔码表 由于专利问题 只有 86
    v2register
        12
    v2register  
    OP
       2018-09-18 10:01:28 +08:00
    @littleMaple
    @20150517
    @pyufftj
    @xxgirl2
    @Rheinmetal

    目前,超大字符集 86 版主要由五笔吧小吧主 LSJ 天道酬勤维护( CJK-F 已更新,但是是根据 Unicode 草案弄的,字符与 Unicode 正式编码对不上号)、超大字符集 98 版主要由 98 五笔吧吧主 yanhuacuo 维护(缺 CJK-F )

    软件初衷的使用对象是五笔编码编、校人员,所以功能上“编辑”为主,“查询”为次。

    现在不比 10 来年前 86、98 版超大字符集编码时有很多人参与,后来增加的 CJK 字符编码基本都靠个人之力完成,三个版本也就主要是三个人而已。

    当然,查询功能适用所有五笔用户,目前也有同类软件、APP、网页等,还能显示拆分结构等更多信息,但字符集基本都是 GBK 或 GB18030-2000 ( CJK+CJK-A )
    LeungV2
        13
    LeungV2  
       2018-09-18 10:19:18 +08:00
    拼音转五笔的 表示 词库好少,没习惯过来
    QK8wAUi0yXBY1pT7
        14
    QK8wAUi0yXBY1pT7  
       2018-09-18 10:19:53 +08:00
    小鸭五笔,我一直用它。可以临时拼音或复制之后,按 ctrl+? 查码
    openbsd
        15
    openbsd  
       2018-09-18 10:21:01 +08:00
    有点杠.......求解惑
    为什么还要推行 “五笔输入法” 这个东西,我一直以为这个是当年可以学习的 计算机知识匮乏 ,于是有一帮天才们弄了套输入法来让学习人员打发时间的产品,今天可以学习的东西已经足够多,而且因为教育进步和 全民迁移(打工) 的原因,普通话水平足够让大多数人完成文字输入 无聊的时候在工作中曾经做过统计,非专业文字录入人员中,五笔的使用者大概是 3-5%,而这个 3-5 中,还有至少 2 要借助拼音才能完成文字的输入,我们要做的难道不是加快它的淘汰速度么 ?
    wellst911
        16
    wellst911  
       2018-09-18 10:38:52 +08:00 via Android
    五笔很多时候没拼音好用。
    SuperMild
        17
    SuperMild  
       2018-09-18 10:42:11 +08:00
    五笔使用者很少,“五笔编码编校人员”就更少了,而且现在已经有五笔词库,所谓的编校只是小修小补,工作量本来就极小。
    yiyiwa
        18
    yiyiwa  
       2018-09-18 10:56:30 +08:00
    支持五笔, 拼音不会打, 还是五笔好。
    v2register
        19
    v2register  
    OP
       2018-09-18 11:08:43 +08:00
    @SuperMild
    受众确实很少

    从结果看,每次的校对确实是你所说的“小修小补”,但过程并非如结果那般简单:
    1、编码校对:校对需要至少“逐字”过一遍,并不是“定向修补”
    2、字形校对:字体不同,字形有可能不同,编码随之可能改变,需要查 Unicode 标准和 GB18030 标准校对字形
    ajan
        20
    ajan  
       2018-09-18 11:16:17 +08:00
    QQ 五笔 好像自带 小词典,可以查编码, 我是 五笔拼音混打 的,脑子里切换就可以了
    xxgirl2
        21
    xxgirl2  
       2018-09-18 11:16:53 +08:00
    @openbsd 这贴不是推行,根据 12L 我也明白了 LZ 的主要目标用户应该是码表作者、古籍录入人员等。

    形码有这样几个优点:
    1. 精准定位,单字输入时八成以上直接空格上屏,少部分需要数字键,极少部分选字要翻页
    2. 根据 1 可得,完全断网不影响输入效率
    3. 根据 2 可得,多平台之间输入区别不大
    4. 根据 1 可得,隐私友好(开源友好?)
    但是第 1 点显然也针对文字工作者,如果每天输入量不上万,这个优势不明显 :(
    上面说的是形码的特点。那么选择形码的时候也要考虑,如果输入简体字,跨平台方案里五笔 86 最流行,有些公用机也装有五笔 86,方便使用。

    我因为需要大量打字使用过双拼,现在使用五笔,但我从来不推荐一般人使用五笔,我平时会推荐双拼 :)
    g00001
        22
    g00001  
       2018-09-18 11:26:09 +08:00
    用的人少并不等于就一定要被淘汰,
    拼音无法完全避免大量的重码,打一些常用的、幼稚的聊天句子是挺快的,专业生僻一点的文章就不行了。也不需要专业生僻,有时候需要打几个单字用拼音都会捉急,重码太多了,任何东西都不是十全十美的,拼音输入法也一样,没有一个东西能解决所有问题,所以自己不用,还是要给别人选择的权利嘛。
    xxgirl2
        23
    xxgirl2  
       2018-09-18 11:26:55 +08:00
    @v2register 歪个楼。之前观察 F 区文字时候有那么几个实在是诡异,也是辛苦了码表作者 :(
    fumichael
        24
    fumichael  
       2018-09-18 11:34:41 +08:00
    我用的还是 86 版的五笔编码,感谢楼主的贡献
    v2register
        25
    v2register  
    OP
       2018-09-18 11:36:37 +08:00
    @xxgirl2 我是以 86 版为蓝本开始新世纪编码的,编码差异大约 30%~ 40%,他的字体用的是增补的“海峰超大字符集字体包”,除了 CJK-F 完全错误以外,前面的几区也有个别字符顺序错乱的问题
    xxgirl2
        26
    xxgirl2  
       2018-09-18 11:47:51 +08:00
    @v2register hmmm,字体的话可以考虑花园明朝,出的速度快。unicode 官方 pdf 里也列出了他们用的字体,其中就有花园。
    openbsd
        27
    openbsd  
       2018-09-18 11:50:45 +08:00
    @g00001 #22 我也觉得奇怪,我认识的所有(注意是所有)五笔使用者,都需要使用 五笔拼音混输 才能完成文字录入,但是拼音使用者中,没有这样的需求,那五笔存在的意义是 ?我觉得将它升级为“专业文字输入工具”会不会更好 ?别忘了,还有郑码啥的......
    tourist2018
        28
    tourist2018  
       2018-09-18 16:27:28 +08:00
    记得我上中学的时候还专门有同学去培训班里面学五笔的,那时候觉得好牛逼,当时输入联想啥的完全达不到现在的水平


    现在他估计都把这项技能丢了
    g00001
        29
    g00001  
       2018-09-18 16:58:44 +08:00
    那说明使用五笔的同样会拼音输入法,拼音输入法一般智商都不能学好。
    但是有些人会优先使用五笔,五笔按键的速度很快,能有这样的机会近距离观察别人是不是混输的机会应当不多,估计“你认识的所有(注意是所有)五笔使用者”应当数量有限, 而且你认识的这些人都是“专业文字输入”工作吗?!

    打个比方,人家有钱买了飞机,一会开飞机一会 “混用” 别的交通工具,而没有飞机的就没有这种“混用”的需求,不能推断出“飞机”应该被淘汰,当然,会开飞机的肯定是少数。
    weixiangzhe
        30
    weixiangzhe  
       2018-09-18 18:36:11 +08:00 via iPhone
    新世纪五笔用户表示强烈支持
    v2register
        31
    v2register  
    OP
       2018-09-18 18:41:55 +08:00
    fayloue
        32
    fayloue  
       2018-09-18 19:02:54 +08:00
    新世纪用户很少吧。
    fayloue
        33
    fayloue  
       2018-09-18 19:10:48 +08:00
    这应该能反映出五笔的好处吧。http://tieba.baidu.com/p/5646892516
    allenhu
        34
    allenhu  
       2018-09-18 19:30:22 +08:00
    5 年老用户五笔已经放弃,终究要淘汰的东西,别浪费时间了。既不科学,也不高效。
    panda
        35
    panda  
       2018-09-18 20:37:43 +08:00 via Android
    @allenhu 怎么会淘汰啊,我就不会拼音只会五笔,不出奇。
    missdeer
        36
    missdeer  
       2018-09-18 21:20:59 +08:00
    @openbsd 你的样本空间不够大。十几年五笔老用户表示平均一年顶多能遇到一次要用拼音的情况。五笔绝大多数时候可以盲打(不需要看候选列表),就算只是用于网上聊天我也觉得这样比拼音每个输入都要看一眼候选列表的好,眼珠(视线)的跳动,注意力的跳转都是影响输入心情(非专业文字录入人员不怎么特别关注输入效率)的事。
    xuanbg
        37
    xuanbg  
       2018-09-18 21:31:03 +08:00
    @openbsd 当初是因为拼音输入法输入速度太慢的缘故,所以有各种输入法,都是为了同一个目的,就是提高汉字的输入速度。

    至于当年的拼音输入法如何慢,想体验的可以装个 xp,用自带的全拼输入法感受一下。
    likuku
        38
    likuku  
       2018-09-18 21:31:35 +08:00 via iPhone
    当有强大 AI 加持的高级 OCR 可以超越普通人类准确率识别随机人类手写字体难看的汉字文本(鬼画符)时(实用成本极低时),五笔输入法这种型码输入法或许才有淘汰的理由。
    nosay
        39
    nosay  
       2018-09-18 21:34:12 +08:00
    五笔现在优势确实是减弱了,但是我依然找不到换回拼音的理由。
    likuku
        40
    likuku  
       2018-09-18 21:34:54 +08:00 via iPhone
    @xuanbg xp 的全拼 /微软拼音输入法 还算不错了,很早支持 GBK/GB18030,至少生僻汉字覆盖比较全面。那时很流行的 win 自带“智能 ABC ”(一直认为它很智障),受限于 GB2032,容易遇到无法输入生僻字…
    bao3
        41
    bao3  
       2018-09-18 21:54:01 +08:00
    对于学不会五笔的人来说,拼音永远是第一选择。对于熟练五笔的人来说,五笔永远是第一反应,对,是第一反应而不是第一选择。我自己而言,同时会五笔、双拼、全拼,真正应该不太适合的倒是双拼,特别是当你中英混输,英文里有拼音时,你会不自觉地输入成双拼,会让人分裂。
    我在 mac 和 win 上用五笔,在 ipad 上用五笔,在 ios 上用双拼,在黑莓上用苍颉。在适合的平台用适合的输入法,在电脑上五笔输入法就像是你用 VIM 一模一样,很多人会跟你说这个编辑器要淘汰了,太不科学了,可是 VIM 形成的肌肉记忆可以深深地影响你使用整个操作系统,以至于我的浏览器全都要用 VIM 键位,连我在 ZSH 也是用 VIM 键位。理解这一点,你就能明白五笔之于一些用户的意义是多么巨大。

    你以你自己的角度来指责五笔,但其实你没有以五笔的角度来看事情:你永远不需要关心你输入了什么,你只要关心你想到了什么,就好像输入法这东西是不存在的一样,这就是五笔。双拼准确率接近,但是前面说过,会有分裂感,全拼接近语音,但重码率太高了。所以我自己就是五笔 ≥ 双拼,偶尔全拼,全拼的时候多半用语音转文字代替。。。。因为全拼真的太慢了。
    xuanbg
        42
    xuanbg  
       2018-09-18 21:58:48 +08:00
    @likuku 主要是慢,换成搜狗拼音什么的,你就会幸福地流下眼泪
    abccccabc
        43
    abccccabc  
       2018-09-19 09:18:02 +08:00
    楼主,可以使用下极点五笔(也有反查功能),这个五笔消亡好多年了,但还没有那款五笔能够超越它。

    你值得拥有。
    openbsd
        44
    openbsd  
       2018-09-19 09:44:05 +08:00
    @nosay #39 Win7 内置输入法里没有五笔,在某些不能连 internet 的环境......这个理由如何 ?
    v2register
        45
    v2register  
    OP
       2018-09-19 09:47:42 +08:00
    @abccccabc
    @hxd
    @20150517
    主要需求是编码校对、编辑功能,不是查询
    openbsd
        46
    openbsd  
       2018-09-19 09:58:21 +08:00
    @g00001 #29
    @missdeer #36
    学习成本......对于今天的学生来说 拼音基本已经 0 成本了,五笔能达到各位 “精准定位,单字输入时八成以上直接空格上屏”的境界,需要多少学习成本 和练习时间?所以我的总结是 “因为文化原因,当年可以学习的 计算机知识匮乏,需要一个费时间 背诵并通过 长时间练习 才能掌握的技能,来增加课时 ?” 个人认为除了专业的文字工作人员,真没必要再推广这个东西,说实在的,当发现 Win10 内置有五笔输入法的时候,我还震惊了一下
    missdeer
        47
    missdeer  
       2018-09-19 11:33:01 +08:00
    @openbsd 没这么难,我当时在学校天天打游戏看视频聊 QQ,突然有一天心血来潮想用五笔,花了 3 天时间,除了开始要背一下口诀,也没刻意练习,就跟平时一样上网聊天,3 天后就跟之前用拼音感觉差不多了。至于后面的更加熟练则是单纯因为用得久,而不是练得多。
    g00001
        48
    g00001  
       2018-09-19 12:26:35 +08:00
    @openbsd 专业的文字工作人员也可以上网交流一下五笔的,你觉得不适合你,不要进来看就可以了,回去好好练你的拼音吧,拼音真要码字码的比五笔快,也不是三两天 0 成本能做到的,觉得 win10 不该内置五笔你删除就行了,一个输入法而已,不要上纲上线的。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4694 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 40ms · UTC 04:01 · PVG 12:01 · LAX 20:01 · JFK 23:01
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.