V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
warmheartli
V2EX  ›  程序员

自己基于影视剧字幕建设了一套三千多万近 1G 的高质量聊天语料库,求一起玩耍

  •  1
     
  •   warmheartli ·
    lcdevelop · 2016-09-18 08:38:03 +08:00 · 9695 次点击
    这是一个创建于 2987 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我用了洪荒之力,想到了这个办法,并用半个月时间才建成,绝对有用,我的聊天机器人有戏了,大家轻拍哈 http://www.shareditor.com/blogshow/?blogId=112

    第 1 条附言  ·  2016-09-18 11:25:28 +08:00
    这份数据的主要用途是作为聊天机器人的训练语料库,用于聊天机器人技术的学习和研究,随便抽了语料中的几行(数据一共 33042896 行),如下,
    ……
    这是什么
    是寄给医院的
    井崎…为什么?
    是为了小雪的事情
    怎么回事?
    您不记得了吗
    在她说小雪…就是在这种非常时期和我们一起舍弃休息时间来工作的护士失踪时…
    医生 小雪她失踪了
    你不是回了一句「是吗」吗
    是吗…
    不 对不起
    跟我道歉也没用啊
    而且我们都知道您是因为夫人的事情而操劳
    但是 我想小聪是受不了医生一副漠不关心的样子
    事到如今再责备医生也没有用了
    是我的错吗…
    我就是这个意思 您听不出来吗
    我也难以接受
    因为同情医生 所以才没有说要辞职
    的确 死亡在村子里蔓延
    正因为如此 今年的霜月神乐才应该办得盛大而庄严
    我赞成田茂的话
    正是在这种非常时期才应该办好祭神仪式 驱除晦气
    ……
    32 条回复    2016-09-19 11:03:36 +08:00
    cctvsmg
        1
    cctvsmg  
       2016-09-18 08:40:53 +08:00   ❤️ 2
    有意思,我以前有个 idea 是,做个微信和 qq 插件,然后可以分析出和妹子聊天,哪儿说错话了,比如从对方反应时间分析,从聊天话题分析等等,这在相亲市场估计很有用
    jhaohai
        2
    jhaohai  
       2016-09-18 08:57:30 +08:00 via iPhone
    好思路,不知道只抓香港局的话会不会说话一股 tvb 味道
    YvesX
        3
    YvesX  
       2016-09-18 09:12:06 +08:00 via iPhone
    很有意思。
    mdyh
        4
    mdyh  
       2016-09-18 09:22:23 +08:00
    @cctvsmg 这种分析有意思,求认识。加个 Q1348284898
    shakespaces
        5
    shakespaces  
       2016-09-18 09:40:23 +08:00 via Android
    666 ,已 mark
    northisland
        6
    northisland  
       2016-09-18 09:43:14 +08:00
    =——=

    是瞎侃式的对话么~~

    正好最近想玩玩那个 conversational model ,马克
    jy01264313
        7
    jy01264313  
       2016-09-18 10:06:14 +08:00
    给力啊,攒一个
    soland
        8
    soland  
       2016-09-18 10:33:16 +08:00
    拿这个收钱,会有版权上面的问题吧?
    wocao5566
        9
    wocao5566  
       2016-09-18 10:34:16 +08:00
    卖就卖
    别求啥玩耍了 真诚点
    hinkal
        10
    hinkal  
       2016-09-18 10:43:28 +08:00
    字幕拿来做翻译机器人更有用吧
    tony1016
        11
    tony1016  
       2016-09-18 10:59:48 +08:00
    没有在线体验吗?
    21grams
        12
    21grams  
       2016-09-18 11:05:56 +08:00
    这有啥用啊,说说有啥用途我考虑下值不值得花 9 块 9
    demoxu
        13
    demoxu  
       2016-09-18 11:19:55 +08:00
    什么都没看到啊,起码来电 sample 啊
    直接 9 块 9 ,下手的人少啊
    SeptimusX
        14
    SeptimusX  
       2016-09-18 11:27:41 +08:00
    应该搞个老译制片风格的语料库…
    h3nng
        15
    h3nng  
       2016-09-18 11:33:22 +08:00
    @cctvsmg
    之前有个 APP 也是类似的 idea ,和机器人妹纸聊天玩耍,如果你说错话或者做的事情不对,就会扣减分数受惩罚啥的。
    DionChan
        16
    DionChan  
       2016-09-18 12:41:23 +08:00
    @cctvsmg 这个很厉害啊,相亲训练师
    warmheartli
        17
    warmheartli  
    OP
       2016-09-18 14:38:03 +08:00
    @hinkal 没有做平行语料,单纯搞中文了,因为想做一个中文的聊天机器人
    warmheartli
        18
    warmheartli  
    OP
       2016-09-18 14:38:34 +08:00
    @tony1016 很快就会上线,请多关注我的分享
    warmheartli
        19
    warmheartli  
    OP
       2016-09-18 14:38:52 +08:00
    @21grams 谢谢提醒,补充上了
    warmheartli
        20
    warmheartli  
    OP
       2016-09-18 14:39:27 +08:00
    @demoxu 谢谢提醒,补充上了
    menc
        21
    menc  
       2016-09-18 15:04:11 +08:00
    看 sample ,觉得语义并不强啊。。。电影字幕的 context 还是过多的通过表演表达出来了,单看字幕什么都看不出。。。
    bearqq
        22
    bearqq  
       2016-09-18 15:18:12 +08:00
    我取了某群聊天记录 2012 年到 2016 年训练, telegram 机器人在, https://telegram.me/the_BB_bot
    其实我想说的是效果很差,试试就知道了。。
    hinkal
        23
    hinkal  
       2016-09-18 15:30:44 +08:00
    @warmheartli 哦哦,如果能搞一份中英对照的,估计我及某些人会感兴趣拿来训练机器翻译
    ooh
        24
    ooh  
       2016-09-18 15:38:16 +08:00
    想法很 ok 啊
    muziki
        25
    muziki  
       2016-09-18 15:46:18 +08:00 via iPhone
    Google 新出来的 Allo 用机器学习预测,可以敷衍式对话
    gladuo
        26
    gladuo  
       2016-09-18 16:14:27 +08:00
    可能还得认真过滤一下,字幕好多都是听译,不好的数据再多也 train 不出来好 model
    kepenj
        27
    kepenj  
       2016-09-18 16:57:29 +08:00   ❤️ 1
    二营长!你他娘的意大利炮呢
    sunchen
        28
    sunchen  
       2016-09-18 17:03:52 +08:00
    和楼主有相同想法,也怕了几个站的字幕。但是有个问题,对话边界在字幕文件里是没有的,又不好识别
    mozutaba
        29
    mozutaba  
       2016-09-18 20:48:16 +08:00
    @cctvsmg 报名内测
    GentleSadness
        30
    GentleSadness  
       2016-09-18 20:53:10 +08:00 via Android
    我记得美国有个最大的用于科研的语料库,好像是免费的
    dreamtrail
        31
    dreamtrail  
       2016-09-19 09:28:36 +08:00
    楼主能不能放个片段出来听听?
    warmheartli
        32
    warmheartli  
    OP
       2016-09-19 11:03:36 +08:00
    @dreamtrail 这个不是听的哈,是文本(前面列了一些),跟影视剧基本没有关系了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   960 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 20:20 · PVG 04:20 · LAX 12:20 · JFK 15:20
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.