V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
veotax
V2EX  ›  分享创造

基于 LangChain 的开源 GPT 向量 + 知识数据库,帮助个人或企业实现自己的专属 AI 问答助手

  •  3
     
  •   veotax · 255 天前 · 59268 次点击
    这是一个创建于 255 天前的主题,其中的信息可能已经有所发展或是发生改变。

    Casibase ( https://github.com/casibase/casibase )是一套开源的基于 Web 的 AI 知识数据库,适合个人或者组织作为自己的专属内部 AI 知识库来使用。GitHub 已达到 1600+ stars ,欢迎体验~

    主要功能如下:

    • 支持 OpenAI GPT-4 模型、GPT Vision 图片解析、DALL-E 画图等功能;
    • 支持最新的 Claude 3 Opus 、Sonnet 等模型,超越 GPT-4 ;
    • 国际模型支持:Azure OpenAI 、Google Gemini Pro 、HuggingFace 、Cohere 等;
    • 国内模型支持:文心一言、通义千问、ChatGLM 、Minimax 、讯飞星火等;
    • 支持多种 Embedding 嵌入 API 接口,如 OpenAI V3, Ada V2, 百度文心一言等;
    • 支持多种通用文档格式:TXT, Markdown, Docx, PDF 等,支持 PDF 文件智能解析;
    • 支持以会话或消息为单位,计算所有大模型 API 的 Token 数和价格(美元或人民币),方便管理员进行 API 成本统计;
    • 支持 AI 小助手通过右下角弹框嵌入到应用网站,进行在线实时聊天,支持聊天会话人工接入;
    • 知识库文档存储支持本地存储,或云端存储(阿里云 OSS 、Amazon S3 、群晖 NAS 等几乎所有主流云存储都有支持);
    • 支持多用户、多租户,支持管理员进行用户管理、角色管理、权限管理,既适合个人使用,也适合组织使用;
    • 支持 QQ 、微信、企业微信、钉钉、Google 、GitHub 等多种第三方登录,支持短信登录、邮箱验证码登录登;
    • 支持谷歌 reCAPTCHA 、hCaptcha 、阿里云、GEETEST 极验、Cloudflare Turnstile 等多种人机验证方式,专业防盗刷;
    • 聊天会话云端存储,所有设备实时消息同步,随时可查看,不会丢失;
    • 支持中文、英文等在内的十几种界面语言。

    在线体验:

    源码:

    社区反馈:

    91 条回复    2024-11-18 15:06:14 +08:00
    fredweili
        1
    fredweili  
       255 天前
    这是什么?又一个向量数据库?
    cccb
        2
    cccb  
       255 天前
    向量数据库用的是什么?向量的存储和检索是用什么工具实现的?
    JaguarJack
        3
    JaguarJack  
       255 天前
    error, status code: 429, message: Requests to the ChatCompletions_Create Operation under Azure OpenAI API version 2023-05-15 have exceeded token rate limit of your current OpenAI S0 pricing tier. Please retry after 13 seconds. Please go here: https://aka.ms/oai/quotaincrease if you would like to further increase the default rate limit.
    coolair
        4
    coolair  
       255 天前
    https://github.com/danswer-ai/danswer/ 比,有啥优势吗?
    向量数据库在新文档上传后,会自动刷新吗?
    veotax
        5
    veotax  
    OP
       253 天前   ❤️ 1
    @fredweili 内置一个向量数据库,为知识数据库提供向量查询功能

    @cccb 内置实现的,可以存储在 MySQL 、Postgres 等数据库中,采用余弦距离作为检索算法

    @JaguarJack 可能是演示站同时使用的人有点多,API 限制了,可以稍等下再用哈~

    @coolair 可以刷新,相比 danswer 的特点包括:后台管理更为强大、支持计算 API 费用、支持国内大模型、开源版支持单点登录 SSO 等
    weixind
        6
    weixind  
       253 天前
    https://fastgpt.in/ 还有一个这个。都是实现一样的产品吧。
    jackrebel
        7
    jackrebel  
       253 天前
    支持一下.
    boringwheat
        8
    boringwheat  
       253 天前
    刚好有这方面的需求,问一下,外挂 Embedding 目前是不是只能从文档内提取啊,结构化数据 JSON 有 api 支持吗?
    tommyshelbyV2
        9
    tommyshelbyV2  
       252 天前   ❤️ 1
    这个方向有很多人做了,光余弦其实效果不好的。这东西也不好变现
    Bantes
        10
    Bantes  
       251 天前
    https://dify.ai 差不多的产品
    kneo
        11
    kneo  
       249 天前   ❤️ 2
    不是很确定这东西是不是真的有用。文本搜索就能直接搜出来的标准答案,它会自己重新编一个似是而非的。
    veotax
        12
    veotax  
    OP
       248 天前
    @boringwheat 架构是前后端分离的,所有功能都有 HTTP API ,包括 Embedding 的 CRUD API

    @kneo 经过多位用户反馈和实际测试,采用 GPT-4 的模型,实测效果还是不错的
    ffgrinder
        13
    ffgrinder  
       248 天前
    @tommyshelbyV2 我也想请教一下除了余弦之外有什么比较好的实践吗
    MasonXu
        14
    MasonXu  
       248 天前
    @kneo 对作者提供的这个不保证结果。但是我做过一个类似的,通过将原始的素材向量化作为初始的数据。用户搜索的时候,也向量化处理并与上一步已经转换为向量的内容做相似度匹配查询。高于特定的比例,例如 0.8 就取原始的答案输出,否则提示找不到,不会自己编写胡扯的
    muchenlou
        15
    muchenlou  
       246 天前
    @MasonXu 大佬你好,这个有类似的开源项目吗?
    lointo
        16
    lointo  
       245 天前 via Android
    有适合代码转向量的向量模型吗
    ren2881971
        17
    ren2881971  
       245 天前   ❤️ 5
    适合国内脑瘫老板,他们总是想私有化部署美,其名曰保护他们企业那点没人关注的数据。
    veotax
        18
    veotax  
    OP
       245 天前   ❤️ 1
    @muchenlou 向量相似度的阈值,这种基本功能都有的,这个放心

    @lointo Casibase 内置了多个切词算法,也叫 Split Provider ,可以选择适合代码的切词算法
    retrocode
        19
    retrocode  
       245 天前
    @ren2881971 这一拳可以啊, 这会咋没人说保护隐私了
    ren2881971
        20
    ren2881971  
       245 天前
    @retrocode 国内无隐私。。
    lointo
        21
    lointo  
       245 天前   ❤️ 3
    @veotax 嗯 可能有一点点误解 不是对代码的切分 是能够把代码向量化的 向量模型 类似 m3e bge 这类 目前知道的都是收费的. 没有自己本地能够部署的. 这里有个相关的对比 https://huggingface.co/moka-ai/m3e-base#%E2%9A%96%EF%B8%8F-%E6%A8%A1%E5%9E%8B%E5%AF%B9%E6%AF%94
    正在调研类似的系统 参考列表
    可独立部署:
    fastgpt
    dify.ai
    chatollama
    langflow
    Flowise
    Langchain-Chatchat

    在线的
    coze
    chato
    beyondex
        22
    beyondex  
       245 天前
    代码向量化?需要做相似代码片段搜索吗?
    Liftman
        23
    Liftman  
       244 天前
    这种实际上的效果。。并不理想。试过类似的。。。而且大部分人连半吊子都不是。很难真的实现效果理想
    ohazyi
        24
    ohazyi  
       244 天前
    有对比过不同的向量数据库 / 语言模型的效果/性能优劣吗? 比如你说的 m3 bge 什么的
    veotax
        25
    veotax  
    OP
       244 天前
    @lointo @ohazyi Casibase 提供了 Embedding Provider 抽象接口,支持各种类型大模型 API 和本地模型的向量化功能。目前实测效果最好的是 OpenAI 的 Embedding V2 以及 V3 模型: https://github.com/casibase/casibase/blob/master/embedding/provider.go
    wangxiaoer
        26
    wangxiaoer  
       243 天前
    这种方案有几个问题:

    1 基于向量搜索的准确度如何,毕竟最后的答案是需要大模型( GPT )通过向量搜索结果进行二次加工(编造)的。

    2 隐私性如何保障:向量搜索结果要作为输入发送给大模型,关注隐私的基本无法用了。
    meinjoy
        27
    meinjoy  
       241 天前
    国内有个 marvis 和你这个一样吧
    QiShine
        28
    QiShine  
       240 天前
    和网易的 Qanything 比较像
    ddddd0
        29
    ddddd0  
       240 天前
    @Liftman 试试 gptbase.ai 是我用过的精度相对好的产品了
    dnsjia
        30
    dnsjia  
       240 天前
    @ddddd0 不错,有对应的开源项目么
    ffwei107
        31
    ffwei107  
       239 天前
    邀请您使用人工智能问答机器人——AI 问答宝:
    https://17281.invite.wendabao.net
    shiyuu
        32
    shiyuu  
       238 天前
    兄弟,知识库要怎么制作啊?我部署了阿里的千问,直接上传一个公司规章制度没有修改过的 word ,根本识别不出来,直接复制文字成 txt 也不识别,更别说其他格式的东西了。
    这知识库是不是要有固定的格式???
    mio4kon
        33
    mio4kon  
       238 天前
    demo 网站怎么上传 pdf 进行测试呢?
    veotax
        34
    veotax  
    OP
       237 天前
    @shiyuu 在数据仓库这个页面(比如: https://demo-admin.casibase.com/stores ),点击对应仓库的“刷新向量”这个按钮,Casibase 会对这个仓库对应的“存储提供商”里的所有文件进行向量索引操作,go 后端会有日志输出。还有其他具体问题可以在 Q 群里提问哈,回答会比较快些~
    ideaa
        35
    ideaa  
       236 天前
    来试试文心一言+知识库的客服系统吧,可以完全自建
    https://www.oamad.cn/
    nunterr
        36
    nunterr  
       234 天前
    功能先不说,你们的主页,和聊天的性能可以优化一下😄,太慢了~~
    chlinlearn
        37
    chlinlearn  
       233 天前 via Android
    有没有像 kimi 支持在线文章链接总结分析的模型推荐?
    Devocy
        38
    Devocy  
       233 天前
    内部实现向量数据库这一点让我很感兴趣。这个资料希望对你有帮助 https://skyzh.github.io/write-you-a-vector-db
    ddddd0
        39
    ddddd0  
       232 天前
    @dnsjia 应该没开源
    lstz
        40
    lstz  
       229 天前 via Android
    我想把此项目集成进项目里,可以吗
    lstz
        41
    lstz  
       229 天前 via Android
    抱歉,想集成到我的开源系统
    veotax
        42
    veotax  
    OP
       229 天前
    @nunterr 演示站的这个性能问题是由于调用了 OpenAI 接口,API 调用到地球另一边有延迟。你自建,然后用国内模型就速度完全没问题了。主页则是 GitHub Pages ,这个看你的网好不好了
    veotax
        43
    veotax  
    OP
       229 天前
    @chlinlearn Casibase 支持上传 PDF 文件作为知识库,然后进行问答(包括总结)
    veotax
        44
    veotax  
    OP
       229 天前   ❤️ 1
    @lstz 欢迎集成哈
    romisanic
        45
    romisanic  
       228 天前
    点开项目才发现,之前已经 star 过了
    那就手动给 OP 点个赞吧
    shm7
        46
    shm7  
       227 天前
    外面都是用大模型/GPT4 的方案,你整个不用大模型的,才能体现出差异化 ; D
    sampeng
        47
    sampeng  
       225 天前
    其实我很像要一个 chatpdf 这样的产品。。。但找了一圈也没有体验类似的
    dabaibai
        48
    dabaibai  
       225 天前
    马克一下 以后看看
    cd605426287
        49
    cd605426287  
       225 天前
    @sampeng KIMI 这种可以读文章的不行?
    sampeng
        50
    sampeng  
       224 天前
    @cd605426287 读文章没意义的。只能是玩具。。要像 chatpdf/chatdoc 一样。能自动跳转 pdf 的引用,根据引用来读
    tingshijie520
        51
    tingshijie520  
       224 天前
    langchain 应该是 python 写的吧,这个基于 langchain 是指基于他的思想还是使用 go 语言版本呢?
    evan9527
        52
    evan9527  
       220 天前
    0 代码基础,有没有那种傻瓜式的,我只需投喂各种文档( pdf ,excel ,图片等),可以帮我连接各个文档检索内容的 ai 工具?就像是 kimi 离线版。
    kimi 目前我使用有一个问题就是,文档内容修改后就得重新开启会话上传新文档。
    tingshijie520
        53
    tingshijie520  
       219 天前
    @evan9527 网易的 QAnything
    sirz
        54
    sirz  
       218 天前
    @ren2881971 更多的是合规性要求
    wwhc
        55
    wwhc  
       213 天前
    真正保护公司/个人信息数据的只能是在本地部署的开源大模型如 LLAMA/Mistral ,这才可以脱离互联网使用,没有数据泄漏的状况。把数据送到外部 AI 服务,没有任何私隐可言
    hitsmaxft
        56
    hitsmaxft  
       194 天前 via iPhone
    @tommyshelbyV2 光靠向量相似度,效果不如传统搜索呢。。
    chenjianyi
        57
    chenjianyi  
       189 天前
    用过 maxkb ,和这个相比怎样呢?
    veotax
        58
    veotax  
    OP
       189 天前
    @chenjianyi 这个企业级应用要强很多,功能很细
    dislazy2023
        59
    dislazy2023  
       189 天前
    我前几天用同样的本地数据,就几 KB 使用 maxkb + 星火 3.5 做了一个简单的 ai 感觉速度奇慢,准确度还低,调教起来挺费劲的
    veotax
        60
    veotax  
    OP
       188 天前
    @dislazy2023 Casibase 可支持 100GB 以上的文档数据( docx 、pptx, pdf 等)作为知识库,采用先进的向量检索算法,对知识进行检索,性能强悍。可以部署试用下
    elseswitch
        61
    elseswitch  
       188 天前
    数据量大的情况下,准确度会不会很差?
    whoosy
        62
    whoosy  
       188 天前
    有个问题想请教下,关于向量搜索这块,对于每个拆分出来的段落,段落标题描述的准确性和段落的 size 是否会直接影响到搜索结果?
    hydyy
        63
    hydyy  
       188 天前
    正好要找类似的,我们用户都有自己的一套数据,能为每个用户提供只对自己的数据搜索吗?
    veotax
        64
    veotax  
    OP
       187 天前
    @elseswitch 不会,通过 Open AI Embedding API + 最佳向量相似度算法,保证高准确度

    @whoosy Casibase 带有启发式的 Splitter 切分算法,能够智能分段。也可以自定义 Splitter 切分算法

    @hydyy 可以,Casibase 本身支持多租户,每个组织里的每个用户,都可以有自己的知识库(文档集合)
    xiaochengdengya
        65
    xiaochengdengya  
       184 天前
    支持一下
    kerb15
        66
    kerb15  
       184 天前
    有准确性的测评数据吗
    wxyudl
        67
    wxyudl  
       184 天前
    收藏
    ZGame
        68
    ZGame  
       182 天前
    后台管理好像打不开
    wsbqdyhm
        69
    wsbqdyhm  
       179 天前
    看着还不错
    DaChengDawn
        70
    DaChengDawn  
       166 天前
    借楼分享一个我和同事一起开发的 AIGC 能力生成婚礼演讲
    选择角色、风格、长度后(也可补充输入个人故事),可一键生成演讲内容~
    体验地址: https://aiweddinggenerator.com
    后续会持续优化和拓展功能
    xinyana
        71
    xinyana  
       166 天前 via Android
    我感觉好像不错呢,回头试一下
    nightkl
        72
    nightkl  
       157 天前
    收藏一下
    xing7673
        73
    xing7673  
       149 天前
    @ren2881971 #20 是的,三星是中国的
    murmur
        74
    murmur  
       131 天前
    @ren2881971 研发经费得有地方花啊
    ren2881971
        75
    ren2881971  
       129 天前
    @murmur 哈哈我们公司那代码写的跟屎一样。 一行注释都没有 就别说文档了。 就这领导还要弄个 AI 编程助手呢 真的谢了。
    popdo
        76
    popdo  
       127 天前
    演示后台进不去,无限回退到登录页
    Altairvelvet
        77
    Altairvelvet  
       124 天前
    牛逼,感觉非常不错的产品!
    Altairvelvet
        78
    Altairvelvet  
       124 天前
    @popdo 是的,我也发现进不去后台。
    bboring
        79
    bboring  
       104 天前
    An error occurred during responding.
    The target vector's length: [1536] should equal to knowledge vector's length: [3], target vector = [-0.021851055 -0.007065261 -0.028624363 -0.024381313 -0.023524918 0.02914339 -0.01248261 -0.002765443 -0.008200633 -0.005076737 0.029299099 -0.003261763 -0.015700579 -0.0025918933 0.012197144 -0.001033189 0.03861564 0.005809863 0.018970452 -0.013650421 -0.019800896 0.010043181 0.0051837866 0.008940248 -0.008129267 -0.005323275 0.0025935152 -0.012138754 0.0033542148 -0.015765458 0.0038213395 -0.016193656 -0.017841568 -0.01293027 0.004087341 -0.016310437 -0.0008628831 -0.009770691 0.02147476 -0.0084731225 0.013001637 -0.0065073064 0.0034937034 -0.0068316986 -0.027897725 0.013313053 -0.012696709 0.0004338745 -0.014935014 0.0359686 0.009225712 0.012852416 -0.014792281 -0.0005234878 -0.0061699385 -0.014740379 -0.007811363 0.006189402 0.007597264 -0.043805916 0.00305253 0.024134776 -0.0060077426 0.015090723 -0.0044766115 0.019995531 0.01533726 0.0051026884 0.008414732 0.017828591 0.02307077 0.019411625 0.0119960215 -0.011236943 0.01711493 -0.01663483
    veotax
        80
    veotax  
    OP
       103 天前
    @popdo @Altairvelvet @bboring 均已修复
    unco020511
        81
    unco020511  
       100 天前
    @ddddd0 #29 试用了下,确实产品做的不错啊,完成度很高.如果能开放用自己的 apikey 和模型就更好了,目前检索和生成的能力似乎还有待加强,但产品流程和设计是没问题的
    janda
        82
    janda  
       84 天前
    问下佬你们这向量数据库用的哪个、主要是文本处理吗?索引类型和参数用的什么,Embedding 和 rerank 可选吗?
    willzzz
        83
    willzzz  
       79 天前
    后台登不进
    wangxiaoer
        84
    wangxiaoer  
       59 天前 via iPhone
    @veotax 请教下,pg 的向量数据库支持中文的分词和全文检索吗
    veotax
        85
    veotax  
    OP
       57 天前
    @janda 向量数据库目前就用的 mysql 这种普通数据库

    @wangxiaoer 支持中文分词和全文检索,中英都支持
    jackerbauer
        86
    jackerbauer  
       52 天前
    @veotax #60 怎么个先进法?
    manhere
        87
    manhere  
       44 天前
    milvus 随便搞搞就有了,RAG 赛道确实是烂大街了。。。
    xiaoz
        88
    xiaoz  
       31 天前
    使用 SQLite3 作为数据库,数据库文件要提前创建吗?用 docker 安装,并用 SQLite3 作为数据库,可有配置案列,自己挂载数据库目录无法启动。
    follow
        89
    follow  
       30 天前
    和 fastgpt 比,有何特色?
    sukidesuka
        90
    sukidesuka  
       30 天前
    我做过半年,纯余弦效果十分差,特别是搜索没有语义的 UUID 、故障码,几乎搜索不到。要配合多种方法搜索再整合回答,这方面我还申请了专利
    zdw189803631
        91
    zdw189803631  
       3 天前
    我很好奇,为什么我每天都能刷到这个老帖子
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5280 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 08:36 · PVG 16:36 · LAX 00:36 · JFK 03:36
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.