实例数据:
1.柒松江区上海市松江区岳阳街道木鱼弄 5-16 号木鱼弄小区木鱼弄 16 号 301 室
#.提取为 [木鱼弄 16 号 301 室]
#.提取为标准库中的[西林塔居委]
2.九亭镇涞亭北路 99 弄 203 号 502 室
#.提取为 [九亭镇涞亭北路 99 弄 203 号 502 室]
#.提取为标准库中的[奥园居委]
类似这样的数据,标准库中具体是什么关键词这个也不太清楚。有什么推荐算法或者实现思路吗?
1
blankmiss 2022-10-10 14:50:20 +08:00 1
怎么看起来像是 es 的分词?
|
3
joApioVVx4M4X6Rf 2022-10-10 15:00:35 +08:00 1
ner?
|
4
buyan3303 2022-10-10 15:01:09 +08:00 1
总感觉和顺丰自动提取地址类似,这个是不是可以在 GITHUB 上搜索一下 [顺丰 地址] 之类的关键词
|
5
respect11 OP @buyan3303 #4 对,第一步拆分提取差不多。核心主要是和标准库数据进行匹配,相当于路名或者小区提取出来某个居委会或者街道
|
7
Troevil 2022-10-10 15:17:37 +08:00 1
nlp? 类似 paddlenlp 应该可以实现,不过对于你这个需求可能有点重
|
8
Vegetable 2022-10-10 15:18:50 +08:00
你这路子感觉不对劲,交给地图不好吗,使用高德之类的 API ,可以轻松的将不规则的地址标准化,再拿到自己的库里比对居委会,这玩意确实没见过开放 API
|
12
QuinceyWu 2022-10-10 15:33:14 +08:00 1
|
13
TimePPT 2022-10-10 17:15:21 +08:00 1
标准库中具体是什么关键词这个也不太清楚
================ 这个提取好说,就是地点 NER 。但和标准库没法直接 NLP 替换啊,文本层面一点相似性都没有。你这匹配规则是啥都不清楚。明显是需要地点和区域映射。 如果外网的话,有些地图服务商提供 API 的,内网的话,只能自己维护。 |