现在要做个检索系统,数据大概 500w ,数据源来源于外部,第一次全量解析 xml 文件,后续每天拿到增量数据包增量更新,检索要求可以根据相似度匹配(可调节相似度)
目前调研
1.大文件文件解析可以用事件方式 如 stax ,防止一次加载到内存
2.相似度查询目前了解可以用 es 或者数据库 fulltext ,但是考虑到查询性能倾向 es
3.数据解析的话解析时候写到数据库,同时同步到 es ,只同步查询字段,然后检索先在 es 查到主键再去数据库根据主键查询
问问各位大佬技术选择和方案有没有什么问题,或者数据存储、查询有没有别的方式,谢过各位🧐,这也是小弟第一次负责做一个从 0 到 1 的系统,有点怕做不好呢