V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
v9ex
V2EX  ›  问与答

关于顺丰的智能拆分地址,请教如何实现的?

  •  
  •   v9ex · 2017-09-29 17:43:23 +08:00 · 14444 次点击
    这是一个创建于 2606 天前的主题,其中的信息可能已经有所发展或是发生改变。
    在微信直接复制姓名,手机号码,收件地址,系统可以智能的把他们都区分出来,在测试当中,使用了几种方法,拆分都很准确,是否有了解这块的朋友,详细介绍下,

    1、手机号姓名地址中间无任何分割号,逗号,回车等,可以拆分
    2、手机号姓名地址无前后顺序,可以拆分

    第 1 条附言  ·  2017-09-29 18:28:46 +08:00
    感谢 @ipconfiger,截帖
    24 条回复    2019-09-03 12:31:14 +08:00
    ipconfiger
        2
    ipconfiger  
       2017-09-29 17:54:20 +08:00   ❤️ 2
    简单点的可以用结巴分词来实现, 先分词, 然后区分词性, 针对地址这类你可以先用全国行政单位数据库来构建一个结巴的词库, 姓名也是, 电话号码什么的最容易识别, 可以单独提前提取出来
    movistar
        3
    movistar  
       2017-09-29 17:59:07 +08:00
    不需要通过分词解决这种问题
    实际上这是一个可穷举的场景
    省市县乡街道数据都是现成的,直接穷举即可,从高到低的范围依次向下匹配
    QAPTEAWH
        4
    QAPTEAWH  
       2017-09-29 18:11:55 +08:00   ❤️ 1
    也可能是请了很多初中生...
    v9ex
        5
    v9ex  
    OP
       2017-09-29 18:16:22 +08:00
    @ipconfiger 谢谢,去研究下

    @jadec0der 大方向?

    @movistar 但是省市区实际上相互中间都有重名的,比如广东省,排除省这个字,还有市区里面也有广东字样的


    @QAPTEAWH 请教下初中生的费用 /条
    v9ex
        6
    v9ex  
    OP
       2017-09-29 18:22:58 +08:00
    @ipconfiger 非常感谢,已经解决
    govtoex
        7
    govtoex  
       2017-09-29 18:25:53 +08:00 via Android
    为啥我首先想到的是正则...
    kdwycz
        8
    kdwycz  
       2017-09-29 18:34:42 +08:00
    还有个思路是调用地图的 API,搜索结果就是格式化的数据
    kdwycz
        9
    kdwycz  
       2017-09-29 18:35:47 +08:00
    名字电话的话= = 电话很好识别出来,名字一般和电话离得很近。。。吧(粗略思路)
    takato
        10
    takato  
       2017-09-29 19:25:27 +08:00
    深度学习兴起以后的 NLP,大致上可以认为,词性分析其实是一个降低准确率的行为。。。

    现在的姿势都是如下的:
    给字编 ID,变成字典
    将一句话变成一串数字放进模型,指定好每一组数据正确的结果
    训练

    然后对输入的数据做预测就可以了,相对来说还会比不分词的准确率高一些。
    virusdefender
        11
    virusdefender  
       2017-09-29 20:08:01 +08:00
    其实是有个人在后台帮你拆分开的
    jadec0der
        12
    jadec0der  
       2017-09-29 23:18:03 +08:00
    如果是人工做的话差不多一毛一条吧,不过响应时间只能做到秒级了 →_→
    kevinzhwl
        13
    kevinzhwl  
       2017-09-30 01:20:40 +08:00 via iPhone
    @v9ex 这个穷举应该是有一定条件限制的,比如第一个是省级行政单位,最多是地级市,而且你输入的地址分段的个数已经暗示了第一个是省级,然后后面的会在这个限制下继续查找,也就可以大部分排除了重名的情况
    v9ex
        14
    v9ex  
    OP
       2017-09-30 09:29:36 +08:00
    @kevinzhwl 但是很多用户输入地址,不填写省市区几个字的,三级应该都有重名的现象
    lixile
        15
    lixile  
       2017-09-30 09:39:29 +08:00
    我来吐槽一下 之前咸鱼上的发货信息复制出来是带 收件人:XXX 的
    结果 居然不能识别出收件人是谁 我表示 差评!
    kevinzhwl
        16
    kevinzhwl  
       2017-10-01 10:47:40 +08:00
    @v9ex 单纯看 3 级是有重名的,但基于 1,2 级的 3 级是没有的。地址库 /表一般都是树形结构存放,有分级、上下关系等内容的
    1GB
        17
    1GB  
       2017-11-02 20:10:01 +08:00
    @v9ex 你好,想请教下最后你们拆分地址是什么做的呢
    v9ex
        18
    v9ex  
    OP
       2018-05-03 11:20:22 +08:00
    @1GB 结巴解决方案不是很完善,继续跟进
    kaiser1992
        19
    kaiser1992  
       2018-11-01 15:04:22 +08:00
    有能把方案详细阐述一下的吗
    eijnix
        20
    eijnix  
       2018-11-24 17:43:56 +08:00
    能说下最后是怎么做的么?
    kaiser1992
        21
    kaiser1992  
       2018-11-27 10:39:56 +08:00
    挖个坟,求大佬翻牌
    v9ex
        22
    v9ex  
    OP
       2018-11-27 14:44:13 +08:00
    @kaiser1992 github 搜索结巴分词即可
    kaiser1992
        23
    kaiser1992  
       2018-11-27 15:45:43 +08:00
    @v9ex 好的,谢谢,我再想想
    izoabr
        24
    izoabr  
       2019-09-03 12:31:14 +08:00
    去 gayhub 上找了一下,发现这个的效果还不错。
    https://github.com/wzc570738205/smart_parse
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5430 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 35ms · UTC 09:20 · PVG 17:20 · LAX 01:20 · JFK 04:20
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.