rogerer 最近的时间轴更新
rogerer

rogerer

V2EX 第 345715 号会员,加入于 2018-08-30 16:03:03 +08:00
rogerer 最近回复了
1 天前
回复了 mogutouer 创建的主题 职场话题 用 AI 编程,半夜的我放声大笑
@wyntalgeer 这和轮子没关系,你只需要有足够多的代码就行了,也不分你前后端还是深度学习。后端比较容易的一点是,现在就能做到 function call 去感知服务的变化,前端还没做好和 dev tools 的通信。
因为能明显盈利,LLM 的能力能得到发挥的就是这个领域。ChatBot 的盈利能力一般,不是生产力工具。
@jingyijun 需要找个本科师弟来做这个维护哈哈
2 天前
回复了 fangyex 创建的主题 程序员 Cursor 和 Windsurf,哪个更好?
@alexsz 我看 windsurf 的 credit 是有限的,虽然 cursor 也有 500 条 high speed 的限制,但好歹还能 slow speed 凑活用。这个真正用的时候会影响很大吗?
Cursor, Windsurf 体验最佳。通义灵码这种都是有点玩票性质,就直接用了补全能力。
10 天前
回复了 Suger828 创建的主题 程序员 请教大模型微调
1.全量一般没人调得动,除非你训的是非常小的模型。LoRA 做的事情是在原有模型的旁边搞一条 Pathway ,这样不用动原有模型的参数,也能让模型去适配一些特定的任务,属于是没有办法的办法。
DPN 应该是指强化学习来调整 LLM 相关的技术,这个现在叫 post-training ,用来增强模型的推理能力。

2.function call ,其实应该也能通过微调的技术来做,比如给模型一些模板奖励信号,这样更输出可能会更规整。
嵌入模型是用来检索的。LLM 依赖的 Transformer 架构的时空复杂度是和序列长度 O(N^2)的,所以不太能把知识库所有的语料都放进去。

静态嵌入模型在这里本质上是做语义相似度,把和你要查询的内容相关的文本找出来再喂给 LLM ,因为静态嵌入模型和上下文无关,所以预先计算成向量,然后再和你的查询转换成的计算相似度就可以了。

另一件事情是,LLM 并不是输入越多信息越好,所以用另一个模型帮它做精简。
11 天前
回复了 jlak 创建的主题 程序员 感觉编程辅助工具都在卷 Agent 而不是补全
补全的能力更多依赖 foundation model
11 天前
回复了 voidmnwzp 创建的主题 程序员 ai 这是真要把前端干死吧
@pureGirl 确实没必要分了,以前分前后端是一个人能学的知识有限,现在大家的心智负担小了不少
11 天前
回复了 voidmnwzp 创建的主题 程序员 ai 这是真要把前端干死吧
@mumbler 我最近用 cursor 复现论文,效果非常好。你说推荐系统,一整套系统让 AI 直接来做上很难的,exposure bias 嘛。但如果是学术界用来复现论文或者快速实现 idea ,非常好用,基本上也不需要怎么改。这可比前端用 cursor 要舒服多了。
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   877 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 16ms · UTC 20:45 · PVG 04:45 · LAX 12:45 · JFK 15:45
Developed with CodeLauncher
♥ Do have faith in what you're doing.