比如:高陵县和高陵区,其实是一个地区。 可是由于历史原因,我们的对接的客户,有些是高陵县,有些是高陵区 这样就会匹配失败。
有没有自然语言处理的方法能够提取出“高陵”呢?
另外:不要进行字符串截取,不可行,尤其是少数民族地区。
1
maocat 2022-05-12 18:12:27 +08:00 via iPhone
长沙县,长沙市
|
2
dzdh 2022-05-12 18:13:19 +08:00
感觉和 NLP 没关系。
如果单独说你的这两个地区,还是感觉字符串相似度就可以。 真要自动识别一定是有问题的,这跟市政规划还有关系,每个城市都有的 [高新区] 和 [高级技术产业开发区] 。 郑州的 高新区、二七区、二七新区、郑东新区 |
3
TimePPT 2022-05-12 18:19:04 +08:00
地名实体识别,市面上有很多这类接口。
|
4
itgoes 2022-05-12 18:21:11 +08:00
每个地区应该都有行政区域编码吧?如果是同一个地区行政区域编码应该相同
|
5
aaniao002 2022-05-12 18:51:58 +08:00 via Android
一般都是提取,显示,本人确认的流程。
|
6
Pythondr 2022-05-12 19:44:40 +08:00
|
7
brader 2022-05-12 19:56:25 +08:00
我们的解决办法是地区表的省级、市级地区整理新增了一个标准化简称 alias 字段,所有含智能化处理的地区业务,我们一般会使用 alias 字段去做。
alias 简称示例: 内蒙古自治区 内蒙 北京市 北京 景德镇市 景德镇 三沙市 西沙群岛 福建省 福建 |
8
documentzhangx66 2022-05-13 06:08:14 +08:00
为什么要专门提取出“高陵”?我觉得你们的最初需求是不是有问题?
另外,地理位置是一种多层次的父子关系,专门提取出“高陵”,相当于强行把每一层切开,这必然会导致父子关系的割裂。所以,你应该把你最原始的需求,给出来。 |
11
brader 2022-05-13 10:25:39 +08:00
@documentzhangx66 按我上面说的方案就不会,因为只是扩充一个字段,地区表原有的 level 和 pid 字段是依然存在的。
然后谈下工作量问题,只为省、市扩充这个字段工作量也不大,大概 400 多个省市吧,这个事情做下来,是一劳永逸的,相信以后项目会很多地方能利用到这个基础设施 |
12
foveal 2022-10-14 18:21:46 +08:00
尝试在做,太复杂了,省市不难,关键是区 /县一级
佳木斯市有个区叫郊区,哈尔滨有个平房区,内蒙古有个海南区,朝阳市 /北京朝阳区 /长春朝阳区 |