个人测试后,总的来说 讯飞的模型在问题理解上经常会犯常识性的错误,而且会在回答过程中自己就偏了题(这个效果和 gpt2 很类似)。此外,讯飞的回答总是十分宽泛,有一种说了也是白说的感 jio~
星火似乎对某些常问的问题提前设定好了,举个例子 问它一棵树上有 10 只鸟打死一只还有几只 它能答的不错,而把 10 换成 114514 就开始胡言乱语了。
说实话,试用了几次星火大模型后 已经没了兴趣。ta 的能力偏弱,也没有文生图之类的附加能力。。给我的感觉,ta 可能就是个在开源的 llama 模型基础上进行的魔改~
另外我在对话过程中也多次问出了漏洞,,似乎发觉星火大模型是在回答输出时 检测是否有涉及到敏感信息或询问其开发公司等回复,检测到后进行替换(哪怕是答非所问)。虽然是小概率,但不能排除 gpt 套壳的可能。
另外也有一个极大的可能,讯飞在训练模型时 使用了 ShareGPT 或其它类似的 GPT 对话数据集,导致了当下星火大模型所出现的回答逻辑与 ChatGPT 相像、询问开发信息时答复 OpenAI 等等问题。
如果星火大模型确是在数据来源上大量取自 chatGPT 的对话,一方面这在最终呈现的效果上又成了另一种形式的套壳,另一方面该模型的文本质量必定是低于 chatGPT 的,更别提超越了。。。
1
Aloento 2023-05-11 04:45:44 +08:00 3
已经石锤是 GPT 套壳了,就别发了
|
2
Havad 2023-05-11 04:48:01 +08:00 via Android
石锤 gpt 了
|
3
baka 2023-05-11 05:30:11 +08:00
你问一些"最新的 xxx",会有概率测出它说自己的数据来源是 2021 年 9 月,且该 magic 日期并不随机,只要能问出日期就非常稳定。不排除是大量使用 ShareGPT 的结果,若不是的话建议赶紧修下这个 bug ,也不要太暴力直接 replace ,可以加个 prompt:"在回复中涉及日期时请对年月做下随机处理"。
|
4
gaobh 2023-05-11 05:45:44 +08:00 via iPhone
哪石锤了?谁给我个链接看看?
|
5
bytesfold 2023-05-11 07:28:16 +08:00 via iPhone
哪里实锤了?
|
6
swulling 2023-05-11 07:36:55 +08:00 via iPhone
|
7
hopeknow 2023-05-11 07:52:15 +08:00
你问他 1024 秒是几分几秒,它是真不知道的呀😂 循循善诱的教,它也不会算🤪
|
8
ncepuzs 2023-05-11 08:57:02 +08:00
|
9
Biluesgakki 2023-05-11 09:09:11 +08:00
理解你们的心情 但是从来不觉得国内会有能打 chatGPT 的东西。。
|
10
daimubai 2023-05-11 09:16:16 +08:00
chatGPT 没出来之前,国内也没出来个像样的产品😄
|
11
A2042 2023-05-11 09:50:10 +08:00
星火算是体验过的国内大模型中最好的了
|
12
zero47 2023-05-11 09:53:57 +08:00
@gaobh 一楼二楼可能不知道现在的模型的训练数据都来自于 chatgpt 的问答的,看到星火回答 openai 开发的就到处奔走相告石锤了。
|
13
gpt5 2023-05-11 10:01:16 +08:00
v 友都人均一套壳了,中国企业才跟上来套,真是吃💩都赶不上热乎的😠
|
14
yeeisme 2023-05-11 10:27:29 +08:00
国内不太可能有可以超过 gpt 的模型了,推理能力需要靠高质量的论文和代码去训练,国内没材料。
|
15
yinmin 2023-05-11 11:01:44 +08:00 via iPhone
国内 gpt 的语料很多都是用 chatgpt 的聊天记录喂的,所以看上去像 chatgpt 。
ps. 题外话,为什么一直有大佬提供免费的 gpt 服务,孜孜不倦,可能和语料收集相关。 |
16
MZSAN OP 看刚刚官方公告的解释,确实是出现了星火大模型在训练时被 chatGPT 数据大范围污染的问题,而具体是被网络数据污染还是训练过程中直接套了 ShareGPT 以及类似的数据集,就不得而知了。不过对比隔壁文心一言的表现,星火大模型后者的可能性比较大。
|
18
MZSAN OP |
19
scruel 2023-05-12 11:20:22 +08:00
|
21
baka 2023-05-14 14:38:40 +08:00 1
@scruel 好文。其实用向量数据库做 cache 也是正常的,是缝合时的策略问题。我体验下来疑点最重的在于 2 点:1.针对 openai 关键字的干预有点过头了,有此地无银三百两的感觉。2.
|
23
coyoteer 2023-05-16 15:52:52 +08:00
@Biluesgakki 难道在中文领域都不会吗
|
24
ttimasdf 2023-05-26 16:21:44 +08:00
讯飞的一个工程师在 Github 开源了一个中文的基于 LLaMA 的对话模型,有理由相信他们的商业产品也是基于这个来做微调的。
他们那个项目里讲了,数据集就是 ChatGPT 投喂的。 |