V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
toeii
V2EX  ›  问与答

有偿求助(NLP):请问如何计算两个词之间的共现/转移概率(transitional probability)?

  •  
  •   toeii · 2022-05-19 11:29:49 +08:00 · 1106 次点击
    这是一个创建于 918 天前的主题,其中的信息可能已经有所发展或是发生改变。
    例子如下:

    小鸟飞翔 “小鸟”与“飞翔”的转移概率?
    饭店喷发 “饭店”与“喷发”的转移概率?(类似这种不可能的搭配)

    (现在手里有很多组这样的组合,自己不会算,想弄懂原理😂,联系:5b6u5L+h5Y+3OiBvajg3djU=
    6 条回复    2022-05-19 13:40:13 +08:00
    ipwx
        1
    ipwx  
       2022-05-19 11:42:34 +08:00
    1. 找一个巨大的语料库。
    2. 用分词(比如 jieba )抽取词的 token 。
    3. 然后直接统计。

    ----

    但是……

    这个方法估计你得不到有意义的答案,原因是 word token 太稀疏了,所以是失真的。

    改进方法:

    1. 找一个巨大的语料库。
    2. 用分词抽取 word token 。
    3. 训练 word embedding model 。
    4. 训练一个分类器,p(next word embedding | previous word embedding)

    ----

    如果要增加效果,可以考虑

    p(next word embedding | context)

    而不是只给定上一个词语。相关的改进建议查询论文。
    IRuNamu
        2
    IRuNamu  
       2022-05-19 12:14:55 +08:00
    @ipwx 聽起來 像 分詞 之後 去除 Stop Words 做 Word2Vec 然後 對比 兩隻 詞(Tokens) 之間 的 轉移 概率
    IRuNamu
        3
    IRuNamu  
       2022-05-19 12:16:10 +08:00
    聽起來 如果 有 上下文 可以 Train 一個 Bert Model 來 比對 p(next word embedding | context)
    toeii
        4
    toeii  
    OP
       2022-05-19 12:44:21 +08:00
    谢谢二位的回复!@ipwx @IRuNamu 可以方便加一下我的联系方式不(如上文)?因为刚刚接触 NLP (完全还没有入门),所以还想具体请教一下~~
    jhdxr
        5
    jhdxr  
       2022-05-19 12:59:48 +08:00
    学校作业么?要你手算的话,HMM 的?
    toeii
        6
    toeii  
    OP
       2022-05-19 13:40:13 +08:00
    @jhdxr 嗯嗯 也算是作业 且要求这周之内完成😂 方便留一下联系方式,或者加我的联系方式么?(如上),多谢多谢!
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   945 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 20:24 · PVG 04:24 · LAX 12:24 · JFK 15:24
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.