V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  siriussilen  ›  全部回复第 3 页 / 共 20 页
回复总数  381
1  2  3  4  5  6  7  8  9  10 ... 20  
274 天前
回复了 Jinnrry 创建的主题 程序员 Google Gemma 开源没人讨论下吗?
中文社区讨论大部分都在知乎上
298 天前
回复了 onikage 创建的主题 问与答 ai 训练(非大模型)现在可以用 cpu 跑吗?
可以,就是慢了点
@TXisfine 还能备案?????
299 天前
回复了 TESTFLIGHT2021 创建的主题 宽带症候群 北京联通 AS9929 谁测试过?
用上了 限速 200M ,speedtest 最多能跑 230M
@Azure99 看错了,5.98 是某个单项的。不是总分,如果只看这两个评测结果来看的话,确实感觉这批数据的效果还不错,不过我感觉还是说不清这个收益的提升是因为你的数据多样性、高质量带来的,还是因为引入中文语料的所带来提升,感觉再补充更多的评测证明工作的有效性会更好一点,已 star
@Azure99 求解释下上面的信息👆
是这样,我们都知道 sft 的时候需要保证样本的多样性以及使用高质量的样本是吧,以及你在上面也提到了现有的大部分 sft 工作就是把 chatgpt 或者人类编写的高质量回复作为一个 teacher 模型来指导相对小模型的学习。Orca 的意义在于给你了一种看似还不错的数据加工方法,让你能够在某一批通用数据的基础上使用这种方式组织样本后能够最大限度发挥 teacher 的能力,通过 sft 的方式迁移到小模型上还能取得一个不错的效果。Orca 也只是在 Flan 工作的基础上证明这条技术路线的有效性而已。

我刚刚看了一下您的数据精调模型( blossom-v4-qwen-14b )和其他通用精调模型( qwen-14b-chat )的对比
我看在你的 github 里 AlignBench 评估中,blossom-v4-qwen-14b 是 5.66 分,qwen-14b-chat 是 5.41 分。
但是我在 Align Bench 的 github ( https://github.com/THUDM/AlignBench )中看到的评测信息,qwen-14b-chat 是 5.98 分,这个怎么理解啊?
@Azure99 看到介绍了,基于 OpenOrca 处理的
@Azure99 而且 orca1 的工作在论文上做精调效果也不差,在指令遵循等方面都有不错的提升,orca2 放出了精调的模型,也可以瞅瞅看看它的能力边界,我认为不算差,是一个开源社区中通用精调相当不错的工作。
@Azure99 1850 种不算少了吧,中文 orca 数据怎么做的?开源的吗? 还是自己复现了 orca1 的工作?
说到 step by step ,有一个 Orca2 的工作,他们对任务的划分不仅仅是 step by step, 还有 direct answer ,recall then generate 等等
@Azure99 我不认为是 cot 有问题,我认为是 sft 的数据配比及多样性有问题,导致在下面 case 中
“inst:请判断下面的评论是好评还是差评,好评输出 true ,差评输出 false 。评论:真难看,不推荐购买
output1:"真难看,不推荐购买"有明显的消极观点,因此是差评,所以,输出 false 。
output2:false”
模型丧失了指令遵循的能力
@Azure99 为什么用大量 cot 数据会导致直接输出的任务很差啊? 如何定义“直接输出任务”吗? QA 问答么?
@Azure99 基于 yi sft 的吗? 这个微调 llm 有足够 solid 的评估吗?
312 天前
回复了 shubiao 创建的主题 问与答 怎么把大模型微调成文本分类模型?
另 gpt3.5 论文细节是是一个 20B 的通用模型,所以用领域数据精调后打败了 3.5 没什么感到牛逼的 - -
312 天前
回复了 shubiao 创建的主题 问与答 怎么把大模型微调成文本分类模型?
@shubiao Lora 我没做过我不了解,我是做全参数微调,几百条就够了,别轻视大模型的拟合能力,另外几百条数据这个点,也可以参考一下 OpenAI 的文档,主要是一些边界 Case 的处理很关键
312 天前
回复了 shubiao 创建的主题 问与答 怎么把大模型微调成文本分类模型?
1. 你的这批数据及 prompt ,gpt4 能做到多少分? gpt4 能否完成你的任务?
2. 5000 条业务数据太多了,模型很容易丧失通用能力,俗称变傻了,混一点通用样本,有奇效
3. 因为你的任务是一个判别式的任务,最后一层输出 token 的 softmax 可以拿掉,或者加一个约束惩罚,看看你的常用类别比如“购物”tokenlizer 之后是不是唯一一个,如果是的话,可以只让模型输出第一个首 token 的概率,把任务转化成判别式的任务,也能涨点
312 天前
回复了 shubiao 创建的主题 问与答 怎么把大模型微调成文本分类模型?
@Morriaty 都已经做微调了,还能是 few shot instruct ?
325 天前
回复了 surbomfla 创建的主题 投资 一百万如何进行简单的理财
@lkkl007 汇率转换的风险远高于 5%
> 一个采用了 2 个角色扮演、2 个对话、1 个神秘学、1 个故事写作、1 个数学和 1 个 DPO 这八个不同的小模型作为专家模型。

预训练和精调是两码事儿啊
1  2  3  4  5  6  7  8  9  10 ... 20  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2442 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 21ms · UTC 15:54 · PVG 23:54 · LAX 07:54 · JFK 10:54
Developed with CodeLauncher
♥ Do have faith in what you're doing.