V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
pigletfly
V2EX  ›  问与答

如何区分中国人名和日本人名?

  •  
  •   pigletfly · 2014-01-05 00:35:17 +08:00 · 3428 次点击
    这是一个创建于 3970 天前的主题,其中的信息可能已经有所发展或是发生改变。
    日本人名已经翻译为中文,如:筱原尚人,木村哲郎.试了下结巴分词,不是太好,有遇到类似需求的没,有什么好的思路可以尝试
    9 条回复    1970-01-01 08:00:00 +08:00
    binux
        1
    binux  
       2014-01-05 00:39:58 +08:00   ❤️ 1
    1、字数
    2、姓 出现概率
    3、名 出现概率
    4、从日本人名如何翻译的入手
    sinxccc
        2
    sinxccc  
       2014-01-05 00:49:05 +08:00
    先弄个常见中国姓氏表和常见日本姓氏(苗字)表吧,应该足够应付大多数情况了。
    FrankFang128
        3
    FrankFang128  
       2014-01-05 00:58:02 +08:00 via Android
    百家姓加字数,就够了吧
    efi
        4
    efi  
       2014-01-05 05:06:20 +08:00
    是不是可以不经过样本训练,直接从统计数据构造一个bayes分类器
    lsj5031
        5
    lsj5031  
       2014-01-05 05:25:45 +08:00
    也很难的吧……

    比如 林 秀贞, 宗 义智之类的……

    精确度要求不算太高的话楼上的办法挺好
    Semidio
        6
    Semidio  
       2014-01-05 07:19:14 +08:00
    说实话这个只能手动区分,事实上即使手动很多不查具体资料也区分不出来。
    比如: 林未纪,江守彻这些名字即使在中文中也没有任何维和。
    msg7086
        7
    msg7086  
       2014-01-05 09:17:09 +08:00
    其实还有很多是韩文汉字……
    frittle
        8
    frittle  
       2014-01-05 11:06:43 +08:00
    如果日本姓名是用日文输入法输入的,而中国姓名是用简体字输入的话,很多姓名可以用汉字区分。含有有繁体字或日本汉字(异体字)的姓名、或含有名字重字时使用的「々」字,就肯定是日本名字了。

    中国现在已经出现越来越多奇葩的自创复姓(例如爹的单姓+娘的单姓,这种我还可以理解,还有一些乱七八糟的),会增加机器区分的难度。
    ling0322
        9
    ling0322  
       2014-01-05 16:40:05 +08:00
    使用一个最大熵模型就可以了哦,特征选取
    B 名字的第一个字
    B1 名字的第二个字
    E1 名字的倒数第二个字
    E 名字的倒数第一个字
    M 名字的其他的字
    L 名字的长度
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   864 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 34ms · UTC 21:42 · PVG 05:42 · LAX 13:42 · JFK 16:42
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.