V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
5shengxin
V2EX  ›  程序员

请问,随机一部中国现行法律或者地方法规,我要如何通过程序对其进行有效的拆分? 因为法律条文的格式有规范,尝试过正则表达式,但是确实还是会有错误的情况出现,并不是最好的方式。有没有更好的解决方案,请具体说一说

  •  
  •   5shengxin · 2021-03-26 18:00:01 +08:00 · 2670 次点击
    这是一个创建于 1362 天前的主题,其中的信息可能已经有所发展或是发生改变。
    17 条回复    2021-03-31 10:30:56 +08:00
    czfy
        1
    czfy  
       2021-03-26 18:03:06 +08:00
    这种应该要标注+ BERT 再搞搞吧?
    cherryas
        2
    cherryas  
       2021-03-26 18:32:33 +08:00
    原书扫描
    ch2
        3
    ch2  
       2021-03-26 18:36:25 +08:00
    正则表达式只是做词法分析用的,你的需求很显然是必须进行语法分析才能实现的,用 yacc 自己搞一套就是了
    只要格式是规范的,语法分析器就能把文本搞成结构化的数据,边界错误可以通过改文法产生式来兼容,很简单的
    favourstreet
        4
    favourstreet  
       2021-03-26 18:53:25 +08:00 via Android
    楼主您这一提地方法规,这难度就上来了
    TimePPT
        5
    TimePPT  
       2021-03-26 20:48:31 +08:00 via Android
    有些电子书排版软件自带的章节切分很好用,最好是带自定义规则的。我就用这个干过切条目的事
    alexkkaa
        6
    alexkkaa  
       2021-03-26 20:52:51 +08:00 via Android
    拆分? 怎么拆分
    rekulas
        7
    rekulas  
       2021-03-26 22:09:06 +08:00
    参考国外成熟产品的方案,都是用语法分析或者 AI 学习,可能只有新手才会想到正则。。。
    Meltdown
        8
    Meltdown  
       2021-03-27 08:55:08 +08:00 via Android
    以前想着用自然语言处理来找法律漏洞
    hejw19970413
        9
    hejw19970413  
       2021-03-27 10:29:48 +08:00
    人工录入,在怎么好的词性分析也不可能读懂人立的规矩
    ljpCN
        10
    ljpCN  
       2021-03-27 12:27:33 +08:00 via iPhone
    es 建索引?
    siyemiaokube
        11
    siyemiaokube  
       2021-03-27 21:19:11 +08:00 via iPhone
    先说清楚你的拆分是怎么个拆分……
    alphatoad
        12
    alphatoad  
       2021-03-28 05:28:08 +08:00
    自然语言不能用 context-free grammar
    5shengxin
        13
    5shengxin  
    OP
       2021-03-29 10:10:51 +08:00
    @siyemiaokube @alexkkaa 就是根据这一部法律的条文的行文规范,比如你输入整部的刑法最终应该拆解出几编,几章,几节,并且这些条文间应该要有层级关系,但不仅限于这个规范,因为很多地方法规他是没有编章节条这些章节切分的,他可能是阿拉伯数字的编号,也可能是中文的数字编号,最好是好可以提炼出关键字,以用于做后续的关联!
    @ch2 因为只懂 python 和 java,并且都是小菜鸡,有这方面的成熟方案吗?
    @rekulas 成熟方案是哪些,可以具体说说嘛?
    @favourstreet 是啊,地方法规的规范确实不确定,但大体上还是有迹可循,一般都会标明 123,现在是只处理那些有编号的条文?
    @alphatoad 然后呢?
    @hejw19970413 就是想解决人工录入的问题,想要复制粘贴整个文档,然后拆成具有层级的条文
    @Meltdown 这个我也想过
    其实不仅仅是法律,只要是正式的文书基本上都有固定的格式
    ch2
        14
    ch2  
       2021-03-29 14:32:34 +08:00 via iPhone
    @5shengxin Python 的 yacc 很好用的,这玩意本来是做编程语言用的。用来分析带格式的文本就是杀鸡用牛刀根本不在话下,不需要写几条规则就能全部解析出来了
    rekulas
        15
    rekulas  
       2021-03-29 21:31:18 +08:00
    @5shengxin ROSS Intelligence 搜搜这个的资料了解下看,具体案例我不是行业人士也不是很清楚,只记得几年前就有国外团队涉足这个领域了而且拿到了不少投资
    5shengxin
        16
    5shengxin  
    OP
       2021-03-29 22:04:58 +08:00 via Android
    @rekulas ok 谢谢
    hejw19970413
        17
    hejw19970413  
       2021-03-31 10:30:56 +08:00
    立法其实就是让人不出边界,边界问题是有迹可循的,但是边界内的问题其实就是辩论会
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4216 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 05:31 · PVG 13:31 · LAX 21:31 · JFK 00:31
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.