1
sagaxu 2019-05-27 09:02:19 +08:00 via Android
年薪百万的也来论坛求助吗?
|
2
TomVista 2019-05-27 09:15:22 +08:00
有个叫 结巴 的开源框框
|
4
lihongjie0209 2019-05-27 09:25:34 +08:00
前端只管把 `话` 传到后端, 后端负责分词
|
7
IfEles OP @lihongjie0209 问题就是出在分词的这个地方,如何筛选出关键有用的信息
|
8
sunstar 2019-05-27 09:37:21 +08:00 via iPhone
stopword
|
11
LeeSeoung 2019-05-27 09:49:10 +08:00
NLP 领域 了解下 QA 中 是如何筛选出有用信息来回答的。
|
12
TomVista 2019-05-27 09:54:24 +08:00
没见过用 java 搞 ai 的,搭个 Python 服务器完事.
|
14
leafin 2019-05-27 10:00:01 +08:00
“筛选出里面的关键信息”,这个‘关键信息’是什麽呢?
如果‘关键信息’都已经在你的基础表里面,其实做个简单的正则匹配就行了。 如果你还想要分析‘商品’和‘地点’的关系,甚至是整句话的情感,又或者你的基础表不能完全包括这些‘关键信息’,那你确实需要 NLP 来进行处理 |
15
magicZ 2019-05-27 10:28:11 +08:00
我们做过类似的, 当时其中情感分析, 关键字处理, 都是 Python 去搞得.
|
16
guyeu 2019-05-27 11:02:19 +08:00
前端分词有点奇怪,应该是后端分词,这个东东应该是后端的一个服务,java 的话可能没什么特别好的轮子,python 的话,结巴分词然后去除停用词就可以。
|
18
guyeu 2019-05-27 15:58:14 +08:00
@IfEles #17 看起来不错,但是分词对多数需求来说只是第一步。。。重新阅读了一下你的问题,感觉是数据结构没有确定?分词结果不是数组么,直接传给后端指定服务,或者更进一步的需求是什么呢?一般而言都是把尽量完整的信息传到后端,然后让后端去做特定的处理。
|
19
seraphv3 2019-05-27 19:48:56 +08:00
java 上分词我用过 IKAnalyzer,可以试下
|
20
IfEles OP @guyeu 对的就是数据类型没确定,比如说数据是:x 仔牛奶:5 元 x 师傅方便 3 元,数据库里会维护好商品名称,但是单价可能每次得去这串复杂文字中提取,大概就是这样的需求
|
22
guyeu 2019-05-28 10:10:39 +08:00
@IfEles #20 前端要做这个不是难为人么。。。让后端训练一个专门做这件事的模型去做啊。。。不过我觉得不靠谱,模型是有准确率问题的。。或者语法相对固定的话直接字符串匹配吧。
|
24
luw2007 2019-05-28 11:23:00 +08:00
里面的商品或者地点信息,这些都是有数据库基础表维护的
|
25
luw2007 2019-05-28 11:24:29 +08:00
里面的商品或者地点信息,这些都是有数据库基础表维护的。
这就是简单的一个匹配的问题。 应该由后端自己处理。前端只管传话就好了。 匹配关键词的方法很多。分词,双尾后缀树,自动机等等。 |
26
sazima 2019-05-28 12:40:36 +08:00
有个想法, 分词功能使用 python 的结巴, 用 java 调用就好. 比如借助 thrift.
|