V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
codingbody
V2EX  ›  机器学习

请教 sentence embedding 模型选择

  •  
  •   codingbody · 2023-07-25 14:24:32 +08:00 · 1195 次点击
    这是一个创建于 472 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近想做个中文的问答系统, 大致的流程如下:

    141710

    问题和对应的答案是固定的,通过 sentence embedding model 把问题转化为向量存储在向量数据库,把用户输入的问题转化为向量并在向量数据库中查询的最匹配的 k 个问题,然后用户选择问题,并返回具体答案。

    涉及到 embedding 模型的选择问题, 主要想找一个中文匹配度好的,我在 hugging face 看了模型的排名

    https://huggingface.co/spaces/mteb/leaderboard

    请教一下我这种场景应该关注模型的什么参数,有不错的模型也可以推荐一下,先谢谢啦。

    第 1 条附言  ·  2023-08-08 10:01:53 +08:00
    最后我们选择使用 openai 的 embedding 接口。
    6 条回复    2023-10-30 11:47:52 +08:00
    flyingfz
        2
    flyingfz  
       2023-07-25 15:30:59 +08:00
    测试过几个,最后凭感觉选用了
    https://huggingface.co/shibing624/text2vec-base-chinese-paraphrase

    也在继续探索 。
    mteb/leaderboard 的这些指标不懂啊 😂
    flyingfz
        3
    flyingfz  
       2023-07-25 16:01:37 +08:00
    codingbody
        4
    codingbody  
    OP
       2023-07-25 16:01:52 +08:00
    @flyingfz #2 谢谢,我也在探索探索😂
    codingbody
        5
    codingbody  
    OP
       2023-07-25 18:02:25 +08:00
    @flyingfz #3 这是要自己训练 embedding 模型么
    seanlee97
        6
    seanlee97  
       2023-10-30 11:47:52 +08:00
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1076 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 81ms · UTC 19:05 · PVG 03:05 · LAX 11:05 · JFK 14:05
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.