目前在 sparksql 编程,想使用 sql 或者简单的 udf 解决问题。需求是两个字段的值,如果具备相似性,则关联出来。
类似 left outer join on a.txt=b.txt
a.txt='请在标题中描述内容要点'
b.txt='请你描述内容要点哦'
这俩我就认为相似度比较高,文本不会很大,都是这样的小文本字符串的相似度。
1
TimePPT 2021-08-25 19:33:20 +08:00
语义相似性还是字符相似性?
这俩差别很大 |
3
francisdu 2021-08-25 20:59:31 +08:00 via Android
词向量聚类?
|
4
des 2021-08-25 21:00:46 +08:00 via iPhone
你提的问题是字符相似,举的例子是语义相似
|
5
leonme 2021-08-25 21:37:03 +08:00 via iPhone
直接的 sql 应该实现不了吧,可以自行封装个函数,计算结果保存在中间表,然后 spark 再扫表关联
|