请教个检索系统技术问题

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 476 天前的主题，其中的信息可能已经有所发展或是发生改变。

现在要做个检索系统，数据大概 500w ，数据源来源于外部，第一次全量解析 xml 文件，后续每天拿到增量数据包增量更新，检索要求可以根据相似度匹配（可调节相似度）
目前调研
1.大文件文件解析可以用事件方式如 stax ，防止一次加载到内存
2.相似度查询目前了解可以用 es 或者数据库 fulltext ，但是考虑到查询性能倾向 es
3.数据解析的话解析时候写到数据库，同时同步到 es ，只同步查询字段，然后检索先在 es 查到主键再去数据库根据主键查询

问问各位大佬技术选择和方案有没有什么问题，或者数据存储、查询有没有别的方式，谢过各位🧐，这也是小弟第一次负责做一个从 0 到 1 的系统，有点怕做不好呢

检索

查询

解析

主键

1 条回复

findlisa

2023-12-14 11:36:41 +08:00 via iPhone

没人吗🤣