V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
puppyxxx
V2EX  ›  程序员

最近要做一个 AI 应用落地,一些困惑希望有人可以指导

  •  
  •   puppyxxx · 3 天前 · 3397 次点击
    1. 开始读书《大模型 RAG 实战》,经过平台好心人推荐,看了下大模型基础这本书,确实更好一些

    2. 要做一个支持 AI review 代码的功能,开发同学提交代码的时候就 review ,同时可以给出优化代码的建议,这种应用的架构要如何设计呢,有人做过或者有知道哪些好的项目参考

    3. 最近听广播,很多企业都接入了 deepseek ,而且应用在业务中,想了解下,这些业务是如何快速部署和实施的呢

    44 条回复    2025-03-09 21:26:03 +08:00
    Morriaty
        1
    Morriaty  
       3 天前
    第 2 个问题的核心是找出完成的上下文
    - 先用 git 工具拉出所有的改动部分
    - 再用 IDE 工具拉出改动部分的前后调用链、依赖包
    - 最好还有一个类似于 issue 的说明文档:这次改动的背景、目标等

    然后定义一个 output format ,丢给 AI 就好了
    hmxxmh
        2
    hmxxmh  
       3 天前
    https://img.picui.cn/free/2025/03/06/67c905fe4d26e.jpg 问了下大模型,可以在流水线里面加一个吧代码发送给大模型去检查,没有实操过,楼主要是成功了也可以分享一下经验
    第三个,很多企业接入都是接入了 api 吧,为了股票,私有化部署成本太高,除了大厂没几个
    jokechen
        3
    jokechen  
       3 天前 via Android
    参考 gerrit 的 ai-code-review plugin 。体验还行,不过需要自己去做一些改造
    jokechen
        4
    jokechen  
       3 天前 via Android
    如果实在自己本地用的小工具的话,我想做个 commit hook 可能更好一些。
    highkay
        5
    highkay  
       3 天前   ❤️ 2
    可以参考我写的 https://github.com/highkay/codereview-agent ,基本上是重写了 https://github.com/bestK/gitea-ai-codereview 。最近看到了 patchwork 不错,又准备重写一遍了,https://github.com/highkay/ai-codereview-agent ,其实区别有点大,也是不断的用,不断的总结需求。
    puppyxxx
        6
    puppyxxx  
    OP
       3 天前
    @Morriaty issues 那个不是很理解,还是十分感谢
    kenshinhu
        7
    kenshinhu  
       3 天前
    到最后你会放成本方向考虑。。。上述应用落地要么花大钱买好的基础模型用量,要不花大力气优化流程
    puppyxxx
        8
    puppyxxx  
    OP
       3 天前
    @hmxxmh 嗯,这个是可以理解的,像医院,政府,金融银行,这些数据敏感性高的,还是要私有化部署的吧,单纯的调用 API ,一些问答类智能助手更适合,看到湖北一家医院很快就全面接入了,我猜是不是某个大厂本地化部署,然后提供数据安全的基础上帮忙训练模型,欢迎多交流
    puppyxxx
        9
    puppyxxx  
    OP
       3 天前
    @kenshinhu 感谢,感觉是你说的这样,这些模型到最后都还回归到算力,说到底还是能源了,不过我现在主要是实践优先
    lanceadd
        10
    lanceadd  
       3 天前
    @highkay 刚好最近想做这个,star+1 参考下老哥的项目
    puppyxxx
        11
    puppyxxx  
    OP
       3 天前
    @highkay 牛哇,我学习下,学完就是我的了,我去交差,哈哈哈,方便加个微信或者群吗,咱们交流下
    puppyxxx
        12
    puppyxxx  
    OP
       3 天前
    @jokechen 好呀,感谢,我参考下
    ohoh
        13
    ohoh  
       3 天前
    你可以用这个全套 https://auto-coder.chat/
    puppyxxx
        14
    puppyxxx  
    OP
       3 天前
    @ohoh 嗯嗯,不错的工具,我们是想自己搞,因为代码有安全要求,不然就找个直接用了
    ohoh
        15
    ohoh  
       3 天前
    @puppyxxx 这个就是自己部署 a
    l1905
        16
    l1905  
       3 天前
    我做够类似的 辅助 codereview , 基于内部 gitlab
    1. 配置 webhook
    2. 合并特定分支,触发 hook
    3. 接收到 hook 请求,获取代码变更信息
    4. 将代码变更信息提供给 llm
    5. 将 llm 的返回内容,作为代码的评论
    6. 点开 gitlab merge request 页面,查看 llm 评论内容
    RockStar
        17
    RockStar  
       3 天前
    “看了下大模型基础这本书,确实更好一些” op 具体是哪本书?
    hmxxmh
        18
    hmxxmh  
       3 天前
    @puppyxxx 对,我们也有做私有化部署,不过参数用的小很多的,满血需要的显卡太多了,今天新出的 qwq-32b 看着效果不错,最主要的是参数小,俩个 4090 差不多可以私有化了
    puppyxxx
        19
    puppyxxx  
    OP
       3 天前
    @RockStar 哈哈,不好意思笔误,是浙江大学《大模型基础》 这本书
    puppyxxx
        20
    puppyxxx  
    OP
       3 天前
    @l1905 嗯嗯,感谢,llm 是用的 api 还是自己的部署的呢
    GreenHand
        21
    GreenHand  
       3 天前
    简单的 PE 估计效果一般,需要后训练模型
    puppyxxx
        22
    puppyxxx  
    OP
       3 天前
    @GreenHand 是的,目前想 codebert codeT5 这些预训练模型,都需要下有任务继续训练
    highkay
        23
    highkay  
       3 天前
    @puppyxxx 微信 aGlnaGtheQ==,32B 的话,可以考虑 qwen2.5-32B-coder 或者 r1 蒸馏版本,我用的是 deepseek v3 ,数据安全的话,其实还好,就是发出去一些代码片段,你们自己不要把敏感信息写进去就好了(在 ci 里面做一些 check ,直接终止掉流水线),需要指令遵循,严格来讲 code review 是一个封闭问题。
    puppyxxx
        24
    puppyxxx  
    OP
       3 天前
    @highkay 好嘞,明白
    catamaran
        25
    catamaran  
       3 天前
    @l1905 获取代码变更信息具体指什么操作?
    EdwardXia
        26
    EdwardXia  
       3 天前
    @highkay #5 老哥可以加个微信交流下吗
    OHyn
        27
    OHyn  
       3 天前
    医院接入我认为是大模型+知识库,或者针对领域微调的模型+知识库。
    公众号上多一个问诊入口,仅此而已。
    甚至有知识库的都算是良心了,可能仅仅是 prompt 而已。不要太高看那些一夜之间接入 deepseek 的企业。真懂得用的,不会等到现在才接入。
    catamaran
        28
    catamaran  
       3 天前
    @highkay #5 搭车问个问题,gitea 有权限管理吗?就是可以控制账号对仓库的读和写。看官方文档,没找到相关的内容。
    andyskaura
        29
    andyskaura  
       3 天前
    我博客有个测试文章生成的 demo ,没想到自然流量特别多,有很多人在用那个写小说。基于这个需求业余时间正在做一个小说生成器,但讲真的,越做越没信心,没有付费点。
    puppyxxx
        30
    puppyxxx  
    OP
       3 天前
    @andyskaura 接广告试试
    hewitt29
        31
    hewitt29  
       3 天前
    加个链接就是接入了。。别想太多,哈哈
    andyskaura
        33
    andyskaura  
       3 天前
    @puppyxxx #30 不太行,现在就接得有 google 广告,国内用户实在是不值钱,点一次 0.01 ,千次展示 0.2 ,半个月了收益还没有 2 块钱。
    AS4694lAS4808
        34
    AS4694lAS4808  
       3 天前
    我是 VSCODE +continue + 公司 claude 3.5 ,经常给多个文件作为上下文,每个月快上百刀了,除非有低成本质量又 OK 的模型能用,或者本地有大集群(手上有 8*8*A800 机器,跑 qwen2.5-72B 也不是很快),否则瓶颈就是成本了吧。。不知道有中小客户能接受的了么
    puppyxxx
        35
    puppyxxx  
    OP
       3 天前
    @gegewu0927 看了下,接入 openai 方案不太行,代码合规是有要求的
    puppyxxx
        36
    puppyxxx  
    OP
       3 天前
    @AS4694lAS4808 所以这个东西感觉还是得用调 api,但是我一直怀疑的是数据安全
    puppyxxx
        37
    puppyxxx  
    OP
       3 天前
    @hewitt29 但是我看新闻,那个模型还能帮助他快速标注出来影像上面的异常点
    liaopen123
        38
    liaopen123  
       3 天前
    看了一圈评论感觉没有很好的方案。
    puppyxxx
        39
    puppyxxx  
    OP
       3 天前
    @liaopen123 问题 2 因为数据安全问题,打算使用公司内部训练的 agent 来处理了,我个人今天的进度
    highkay
        40
    highkay  
       2 天前
    @catamaran 可以的,生成 token 的时候可以选择权限范围。仓库范围是靠你创建发起的层级确定的,比如全局,group 和单个曾库。
    highkay
        41
    highkay  
       2 天前
    @andyskaura 你这个感觉写长文不太行,网文现在 AI 检测力度也很大,但是不写长文( 100W 字以上)没有商业价值,这个还是需要很多功夫的,靠那些 coze 啥的应该不太行。
    nidhogger
        42
    nidhogger  
       2 天前
    关注一下 op 的进展。
    puppyxxx
        43
    puppyxxx  
    OP
       12 小时 17 分钟前
    @nidhogger 拉了一下上面老哥重写的项目,整体代码读了一遍,在试着从源代码 gitea 改成使用 gitlab hook ,感谢关注哈,我这边有进展搞个新的帖子发出来,我是新手可能总是问一些略显蠢的问题,见谅
    hewitt29
        44
    hewitt29  
       13 分钟前
    @puppyxxx 这功能盲猜与 ai 不能说毫无关系吧,只能说是一点关系没有。要个屁的模型,,现在但凡是计算机处理一下都能吹成 AI
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2938 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 13:39 · PVG 21:39 · LAX 06:39 · JFK 09:39
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.