V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
dzdh
V2EX  ›  PostgreSQL

有没有什么正在更新的词库可以给 jieba 或 zhparser 用的

  •  
  •   dzdh · 2021-06-28 22:32:39 +08:00 · 1776 次点击
    这是一个创建于 1273 天前的主题,其中的信息可能已经有所发展或是发生改变。

    ps : 这俩还在更新吗..

    pg 的中文分词需求感觉蛮大的啊。哪里有好的社区可以求指导咩

    5 条回复    2021-06-29 15:14:24 +08:00
    ptsa
        1
    ptsa  
       2021-06-28 23:26:31 +08:00
    更新不频繁。 应该都能用
    dzdh
        2
    dzdh  
    OP
       2021-06-29 09:14:23 +08:00
    @ptsa 有没有啥好的分词词库啊。

    搜狗细胞词库转 txt ?
    MinQ
        3
    MinQ  
       2021-06-29 10:38:56 +08:00
    https://ai.tencent.com/ailab/nlp/en/embedding.html
    可以把这里面的词抽出来作为词典,质量还是很高的
    dzdh
        4
    dzdh  
    OP
       2021-06-29 14:58:45 +08:00
    @MinQ
    木有找到现成的库 需要自己 clone 源码自己训练么
    MinQ
        5
    MinQ  
       2021-06-29 15:14:24 +08:00
    @dzdh 不需要,下载下来是一个训练好的文件,里面是词+对应的词向量的形式
    读到内存里(可能需要至少 16G 以上的内存),然后把词库提取出来给 jieba 用
    https://www.biaodianfu.com/tencent-word-embedding.html
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4951 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 09:48 · PVG 17:48 · LAX 01:48 · JFK 04:48
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.