V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
fantasticfears
V2EX  ›  算法

实现了一个拼音分割的算法

  •  
  •   fantasticfears · 2019-04-12 04:29:08 +08:00 · 4166 次点击
    这是一个创建于 2045 天前的主题,其中的信息可能已经有所发展或是发生改变。

    按照“刘政怡, 吴建国 and 刘慧婷, 2008. 音节切分歧义方法研究. 计算机技术与发展, 18(8), pp.35-38.”论文,用 C++17 实现了一个拼音分割算法。

    https://github.com/fantasticfears/pinyin-syllable-segmentation

    算法只有一个 syllable_segmentation.hppsyllable_list.csv 是一个音节的文件。SyllableIndex 存了音节的信息。SyllableSegmentor 实现了 AppendPhoneGetSyllableListPopLastPhone,分别可以添加音符、获得分割好的音符字符串和删除最后一个字符。

    现在已经没有多少研究去做音节分割了。搜狗可能做得比研究都好了。

    7 条回复    2024-09-16 00:21:48 +08:00
    lotem
        1
    lotem  
       2019-04-12 06:14:14 +08:00
    恭喜
    fantasticfears
        2
    fantasticfears  
    OP
       2019-04-12 06:34:20 +08:00
    @lotem 谢谢,写它的契机其实是落格输入法可以用上。其他能用上的地方就只有生成 slug 了。输入法这样顶尖的应用有能降低心智的负担,但重要的点还是在于数据的分析。能提高一个量级的水平。还是商业化好做到这个目标吧
    Tumblr
        3
    Tumblr  
       2019-04-12 06:36:56 +08:00
    @lotem #1 公子好早啊

    恭喜啊,先学为敬
    0312birdzhang
        4
    0312birdzhang  
       2019-04-12 08:29:12 +08:00
    第一次离大佬们这么近(一直没静下心来研究一下 rime😂
    faywong8888
        5
    faywong8888  
       75 天前
    先赞后读。
    faywong8888
        6
    faywong8888  
       74 天前
    请教下,这个库支持侦测拼写错误吗?比如 "jiabg" 的拼写错误在 'b' 这里。
    fantasticfears
        7
    fantasticfears  
    OP
       61 天前
    @faywong8888 论文里的算法没考虑过这个问题。所以我也没想过实现这个功能。理论上可以改进
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2716 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 12:09 · PVG 20:09 · LAX 04:09 · JFK 07:09
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.