项目受 https://github.com/rasbt/LLMs-from-scratch 启发(当前 GPT2 部分的核心代码也是来自这里),整理了一个更加 clean 一些,结构更清晰一些的 GPT2 的实现。另外直接提供了模型的.pt
文件,省去了从 Tensorflow 转换的麻烦。除了 GPT2 的核心实现外,最近也加上了 Speculative Sampling 算法的实现。
因为是学习目的的实现,所以代码注重正确和易读。对于这两点,大家有相关的意见可以提一提。考虑到类似的英语资源已经比较多了,中文好像少一些,所以后续可能把仓库的文档都换成中文。
![]() |
1
ZiLong 20 小时 52 分钟前 ![]() 支持,但是如果只有代码不配教程的话对大部分人来说太难了,很难引起关注
|
![]() |
2
huangyezhufeng OP @ZiLong 感谢反馈。我后面看看怎么加个 step by step 的教程。呈现方式上来说,能想到的还是 Jupyter notebook 之类的工具。
|