V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
grimpil
V2EX  ›  问与答

关于本地知识库的问题,哪种嵌入模型对文言文支持效果好?

  •  
  •   grimpil · 3 天前 · 718 次点击
    我这里整理了很多文言文的资料,如果用本地知识库的话,直接把文言文导进去,但是搜索输出用现代文,是不是效果不太好?
    这种情况是应该先翻译之后再导进去,还是说有什么针对文言文的嵌入模型?
    这里完全不懂,真诚求教
    5 条回复    2025-02-23 18:39:58 +08:00
    nomagick
        1
    nomagick  
       3 天前
    不可能好,文言文的语料一共才多少你想想

    统称文言文,实际诗词曲赋体裁众多,从古到今几千年用法不一,使用场景不同语气用词各不相同,再加上誊抄时错误百出

    真要想做好,要先把大量语料从白话文翻译回文言文,用生成数据训练,
    但翻译要怎么翻译,本质上就是重新定义文言文的过程
    TimePPT
        2
    TimePPT  
       3 天前 via Android
    没明白你啥需求,文言文翻译?
    grimpil
        3
    grimpil  
    OP
       3 天前
    @TimePPT 就是想把这些文言文的资料作为本地知识库,基于里面的内容用 AI 进行文本生成,创作新的内容。实际使用起来效果不好,感觉可能是搜索知识库的时候存在匹配问题
    TimePPT
        4
    TimePPT  
       3 天前 via Android
    @grimpil 如果是通用的文言文和诗词创作,其实中文预训练过的大模型本身就不错,你如果想仿作,要的是把想仿的诗词古文作为范例放在 prompt 里,这时候用 RAG 没问题,但单纯做文本检索或向量检索是不够的,最好是有一些额外的索引 tag ,比如「怀古」,「咏物」这种
    TimePPT
        5
    TimePPT  
       3 天前 via Android
    @TimePPT 如果是特别垂的古诗词古文生成,还需要做一些领域微调,效果才能好
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1235 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 17:48 · PVG 01:48 · LAX 09:48 · JFK 12:48
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.