老铁们，有在 sparksql/spark 计算过字符串的相似度吗？ - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

V2EX 提问指南

这是一个创建于 1233 天前的主题，其中的信息可能已经有所发展或是发生改变。

目前在 sparksql 编程，想使用 sql 或者简单的 udf 解决问题。需求是两个字段的值，如果具备相似性，则关联出来。
类似 left outer join on a.txt=b.txt

a.txt='请在标题中描述内容要点'
b.txt='请你描述内容要点哦'
这俩我就认为相似度比较高，文本不会很大，都是这样的小文本字符串的相似度。

5 条回复 • 2021-08-25 21:37:03 +08:00

1

TimePPT

2021-08-25 19:33:20 +08:00

语义相似性还是字符相似性？
这俩差别很大

2

dtgxx

OP

2021-08-25 19:51:06 +08:00

@TimePPT #1 正在写字符相似性。。语义的。。。貌似比较麻烦

3

francisdu

2021-08-25 20:59:31 +08:00 via Android

词向量聚类？

4

des

2021-08-25 21:00:46 +08:00 via iPhone

你提的问题是字符相似，举的例子是语义相似

5

leonme

2021-08-25 21:37:03 +08:00 via iPhone

直接的 sql 应该实现不了吧，可以自行封装个函数，计算结果保存在中间表，然后 spark 再扫表关联

关于 · 帮助文档 · 博客 · API · FAQ · 实用小工具 · 5601 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 26ms · UTC 06:34 · PVG 14:34 · LAX 22:34 · JFK 01:34
Developed with CodeLauncher
♥ Do have faith in what you're doing.