1
musi 24 天前
几本书就想高质量?那也不用 Scaling Law 了
|
2
kaichen 24 天前
大力出奇迹,几本书是不够,要很多很多。
参考,推理能力超过 gpt-3.5 的 Llama3 - https://ai.meta.com/blog/meta-llama-3/ - https://ai.meta.com/blog/meta-llama-3-1/ > Meta reports on Llama 3.1's page on Huggingface, using 39.3 million hours of H100 80GB instances to train all 3.1 models (8, 70, 400 B). 大概是,两万四千张 H100 训练 74 天 > Llama 3 is pretrained on over 15T tokens that were all collected from publicly available sources. 大概等同于 60TB 数据,在它的技术报告里,提到这是更大的数据集上做清洗去重的精华 --- 所以先有这么多的资源才能训练得到高质量机器人 |
3
lneoi 24 天前
想做机器人客服还是什么?现在基础模型这么多,为啥要重头搞一个
|
4
mfsw OP |
5
musi 23 天前
@mfsw #4 那就用 RAG ,但是想把 RAG 做成可用状态需要花大量时间精力,如果能把检索做好的话,你可以做一个 perplexity 出来了。这是一家估值 30 亿美元的公司,正准备将估值翻到 80 亿美元,你考虑一下你能不能 cover 住
|
6
aiqinxuancai 23 天前
参考 lobechat 的知识库,将书内容量化作为知识库,再写个 prompt 即可
|
7
mfsw OP |