现在我们要做一些文章中提取数据和分段(提取目录),比如一篇合同。
提取出来的目录是
要提取出的数据是
这些只是举例,实际上可能会更多。
不知道现在什么技术能做到,正则表达式肯定不用想了,格式太乱, 调试的时间和手工提取时间没差多少,再加上数据量很大,所以就没法考虑了。
听说 google 有个 tensorflow 项目,但是不太了解能不能做到。
请各位给点意见,或者说下招到能做到这样效果的技术人员薪资大概多少。
1
fengdra 2018-01-19 11:36:56 +08:00 via Android 1
现在的 NLP 技术很难理解语义,很多时候还不如手写正则表达式。
如果非要用的话,大概有两种方式。第一种是找人标数据来训练端对端的模型,一般也只是用 SVM 之类的传统模型,不需要非常多的数据。 第二种是用句法分析器之类的现成工具提取比较高级的特征,然后写规则。 |
3
neosfung 2018-01-19 11:55:03 +08:00 1
同意一楼,除非这个任务的价值特别大,值得投资人力来标注语料库,否则还不如用正则来的快。
嫌正则慢,可以考虑一下新出来的 flashtext https://github.com/vi3k6i5/flashtext |
5
littlepanzh 2018-01-19 15:51:45 +08:00
|
6
takato 2018-01-19 16:00:32 +08:00
Attention+端对端。。
上面的方法好是好,可是。。。gap 了一个时代了啊。。。 |