CloseVector is a vector database with libraries for browsers & node.js. Prioritizing easy integration & scalability, its vector index runs on the user's machine for optimal performance.
这款向量数据库相比起一般向量数据库的区别是它针对中小量条数目场景,将数据库下载到用户本地运行(目前提供了 web 版本)和 CDN 存储服务(当然也可以自行解决 CDN 存储),好处是不耗费服务端资源和伸缩性较好,比较适合 Chat With PDF 等场景。
1
qieqie 2023-09-27 11:10:02 +08:00
中小量级(<100k) sq pq 甚至暴搜估计都比 hnsw 快还省一个数量级内存
|
2
MegaPortal OP @qieqie 是的,在不同数据量级上,HNSW 算法可能不是最有解,感谢提供建议。
CloseVector 的核心价值并不是在计算性能上在不同量级上取得最优解,而是提供一套本地运行向量数据库的解决方案,这种解决方案可能适用于数据敏感、可扩展性要求比较强( CloseVector 只依赖本地存储或者 CDN 存储)的场景,而这些场景不一定需要服务端向量数据库的参与,例如你需要索引本地的所有图片,索引你本地的所有文档,只要本地设备能够接受运行、存储、传输成本即可。 至于 CloseVector 为什么选用 HNSW 呢,是因为一是 HNSW 在不同数据量级上,表现可接受;二是 HNSW 算法足够简单且有开源的成熟库,能够比较方便支持后续 CloseVector 在例如 Python 、Swift 、Kotlin 等语言上提供接入版本。 在小量级的场景,HNSW 的表现应该在用户可感知范围没有明显影响,后续 CloseVector 如果需要优化运行效率的话,确实可以向您说的,优化序列化结构,然后在不同的量级上采取不同的算法。 |