这个文件夹是基于**《Attention is all your need》**论文复现的完整Transformer架构代码,包括:
- 输入部分:Embedding + 位置编码
- 编码器:注意力机制
- 解码器
- 输出部分:linear + softmax
最后还会将各部分结合起来构建一个完整的transformer模型。
-
对论文更好地理解:先看论文,再看代码。
推荐视频:《Transformer论文逐段精读【论文精读】- 李沐》
-
直接了解代码实现:先看代码,再根据代码匹配论文思路
这个文件夹是基于**《Attention is all your need》**论文复现的完整Transformer架构代码,包括:
最后还会将各部分结合起来构建一个完整的transformer模型。
对论文更好地理解:先看论文,再看代码。
推荐视频:《Transformer论文逐段精读【论文精读】- 李沐》
直接了解代码实现:先看代码,再根据代码匹配论文思路