refine website view

BBuf · May 6, 2024 · 2fd6a32 · 2fd6a32
1 parent 388c1b7
commit 2fd6a32
Show file tree

Hide file tree

Showing 41 changed files with 60 additions and 46 deletions.
diff --git a/docs/project/OneFlow/CUDA WarpReduce 学习笔记.md → docs/project/CUDA/CUDA WarpReduce 学习笔记.md b/docs/project/OneFlow/CUDA WarpReduce 学习笔记.md → docs/project/CUDA/CUDA WarpReduce 学习笔记.md
diff --git a/...PT和Claude 对比测试以Review MLIR Codegen代码为例.md → ...PT和Claude 对比测试以Review MLIR Codegen代码为例.md b/...PT和Claude 对比测试以Review MLIR Codegen代码为例.md → ...PT和Claude 对比测试以Review MLIR Codegen代码为例.md
diff --git a/...0亿参数大模型的调优笔记：比FasterTransformer更快的解决方案.md → ...0亿参数大模型的调优笔记：比FasterTransformer更快的解决方案.md b/...0亿参数大模型的调优笔记：比FasterTransformer更快的解决方案.md → ...0亿参数大模型的调优笔记：比FasterTransformer更快的解决方案.md
diff --git a/docs/project/OneFlow/HugeCTR源码简单走读_zzk.md → docs/project/CUDA/HugeCTR源码简单走读_zzk.md b/docs/project/OneFlow/HugeCTR源码简单走读_zzk.md → docs/project/CUDA/HugeCTR源码简单走读_zzk.md
diff --git a/...neFlow/Oneflow 实现强化学习玩 Flappy Bird 小游戏.md → ...t/CUDA/Oneflow 实现强化学习玩 Flappy Bird 小游戏.md b/...neFlow/Oneflow 实现强化学习玩 Flappy Bird 小游戏.md → ...t/CUDA/Oneflow 实现强化学习玩 Flappy Bird 小游戏.md
diff --git a/...Oneflow 添加算子实践 ---- 实现 Expand 和 Repeat.md → ...Oneflow 添加算子实践 ---- 实现 Expand 和 Repeat.md b/...Oneflow 添加算子实践 ---- 实现 Expand 和 Repeat.md → ...Oneflow 添加算子实践 ---- 实现 Expand 和 Repeat.md
diff --git a/docs/project/CUDA/README.md b/docs/project/CUDA/README.md
@@ -0,0 +1,4 @@
+# CUDA相关的文章分享
+
+这个专栏记录一些框架的开发笔记以及一些CUDA相关的开发和使用经验。
+
diff --git a/...f的CUDA笔记】一，解析OneFlow Element-Wise 算子实现.md → ...f的CUDA笔记】一，解析OneFlow Element-Wise 算子实现.md b/...f的CUDA笔记】一，解析OneFlow Element-Wise 算子实现.md → ...f的CUDA笔记】一，解析OneFlow Element-Wise 算子实现.md
diff --git a/.../OneFlow/【BBuf的CUDA笔记】三，reduce优化入门学习笔记.md → ...ect/CUDA/【BBuf的CUDA笔记】三，reduce优化入门学习笔记.md b/.../OneFlow/【BBuf的CUDA笔记】三，reduce优化入门学习笔记.md → ...ect/CUDA/【BBuf的CUDA笔记】三，reduce优化入门学习笔记.md
diff --git a/...ing（chatgpt）解析oneflow softmax相关的fuse优化.md → ...ing（chatgpt）解析oneflow softmax相关的fuse优化.md b/...ing（chatgpt）解析oneflow softmax相关的fuse优化.md → ...ing（chatgpt）解析oneflow softmax相关的fuse优化.md
diff --git a/...f的CUDA笔记】二，解析 OneFlow BatchNorm 相关算子实现.md → ...f的CUDA笔记】二，解析 OneFlow BatchNorm 相关算子实现.md b/...f的CUDA笔记】二，解析 OneFlow BatchNorm 相关算子实现.md → ...f的CUDA笔记】二，解析 OneFlow BatchNorm 相关算子实现.md
diff --git a/...UDA笔记】五，解读 PyTorch index_add 操作涉及的优化技术.md → ...UDA笔记】五，解读 PyTorch index_add 操作涉及的优化技术.md b/...UDA笔记】五，解读 PyTorch index_add 操作涉及的优化技术.md → ...UDA笔记】五，解读 PyTorch index_add 操作涉及的优化技术.md
diff --git a/...w 和 FasterTransformer 的 Softmax Cuda实现.md → ...w 和 FasterTransformer 的 Softmax Cuda实现.md b/...w 和 FasterTransformer 的 Softmax Cuda实现.md → ...w 和 FasterTransformer 的 Softmax Cuda实现.md
diff --git a/...rTransformer Encoder(BERT) 的cuda相关优化技巧.md → ...rTransformer Encoder(BERT) 的cuda相关优化技巧.md b/...rTransformer Encoder(BERT) 的cuda相关优化技巧.md → ...rTransformer Encoder(BERT) 的cuda相关优化技巧.md
diff --git a/...笔记】十一，Linear Attention的cuda kernel实现补档.md → ...笔记】十一，Linear Attention的cuda kernel实现补档.md b/...笔记】十一，Linear Attention的cuda kernel实现补档.md → ...笔记】十一，Linear Attention的cuda kernel实现补档.md
diff --git a/...ow/【BBuf的CUDA笔记】十三，OpenAI Triton 入门笔记一.md → ...DA/【BBuf的CUDA笔记】十三，OpenAI Triton 入门笔记一.md b/...ow/【BBuf的CUDA笔记】十三，OpenAI Triton 入门笔记一.md → ...DA/【BBuf的CUDA笔记】十三，OpenAI Triton 入门笔记一.md
diff --git a/...BBuf的CUDA笔记】十二，LayerNorm，RMSNorm的重计算实现.md → ...BBuf的CUDA笔记】十二，LayerNorm，RMSNorm的重计算实现.md b/...BBuf的CUDA笔记】十二，LayerNorm，RMSNorm的重计算实现.md → ...BBuf的CUDA笔记】十二，LayerNorm，RMSNorm的重计算实现.md
diff --git a/...记】十五，OpenAI Triton入门笔记三 FusedAttention.md → ...记】十五，OpenAI Triton入门笔记三 FusedAttention.md b/...记】十五，OpenAI Triton入门笔记三 FusedAttention.md → ...记】十五，OpenAI Triton入门笔记三 FusedAttention.md
diff --git a/...low/【BBuf的CUDA笔记】十四，OpenAI Triton入门笔记二.md → ...UDA/【BBuf的CUDA笔记】十四，OpenAI Triton入门笔记二.md b/...low/【BBuf的CUDA笔记】十四，OpenAI Triton入门笔记二.md → ...UDA/【BBuf的CUDA笔记】十四，OpenAI Triton入门笔记二.md
diff --git a/...A笔记】十，Linear Attention的cuda kernel实现解析.md → ...A笔记】十，Linear Attention的cuda kernel实现解析.md b/...A笔记】十，Linear Attention的cuda kernel实现解析.md → ...A笔记】十，Linear Attention的cuda kernel实现解析.md
diff --git a/...omicAdd模板，OneFlow UpsampleNearest2d模板）.md → ...omicAdd模板，OneFlow UpsampleNearest2d模板）.md b/...omicAdd模板，OneFlow UpsampleNearest2d模板）.md → ...omicAdd模板，OneFlow UpsampleNearest2d模板）.md
diff --git a/...tron-LM的gradient_accumulation_fusion优化.md → ...tron-LM的gradient_accumulation_fusion优化.md b/...tron-LM的gradient_accumulation_fusion优化.md → ...tron-LM的gradient_accumulation_fusion优化.md
diff --git a/.../project/OneFlow/一个Tensor在OneFlow的执行流程.md → docs/project/CUDA/一个Tensor在OneFlow的执行流程.md b/.../project/OneFlow/一个Tensor在OneFlow的执行流程.md → docs/project/CUDA/一个Tensor在OneFlow的执行流程.md
diff --git a/...oject/OneFlow/乱谈CUTLASS GTC2020 SLIDES.md → .../project/CUDA/乱谈CUTLASS GTC2020 SLIDES.md b/...oject/OneFlow/乱谈CUTLASS GTC2020 SLIDES.md → .../project/CUDA/乱谈CUTLASS GTC2020 SLIDES.md
diff --git a/...ject/OneFlow/以OneFlow为例梳理深度学习框架的那些插值方法.md → ...project/CUDA/以OneFlow为例梳理深度学习框架的那些插值方法.md b/...ject/OneFlow/以OneFlow为例梳理深度学习框架的那些插值方法.md → ...project/CUDA/以OneFlow为例梳理深度学习框架的那些插值方法.md
diff --git a/...t/OneFlow/使用OneFlow完成基于U型网络的ISBI细胞分割任务.md → ...ject/CUDA/使用OneFlow完成基于U型网络的ISBI细胞分割任务.md b/...t/OneFlow/使用OneFlow完成基于U型网络的ISBI细胞分割任务.md → ...ject/CUDA/使用OneFlow完成基于U型网络的ISBI细胞分割任务.md
diff --git a/...roject/OneFlow/可能是讲得最清楚的WeightOnlyGEMM.md → docs/project/CUDA/可能是讲得最清楚的WeightOnlyGEMM.md b/...roject/OneFlow/可能是讲得最清楚的WeightOnlyGEMM.md → docs/project/CUDA/可能是讲得最清楚的WeightOnlyGEMM.md
diff --git a/docs/project/OneFlow/在OneFlow实现数据类型自动提升.md → docs/project/CUDA/在OneFlow实现数据类型自动提升.md b/docs/project/OneFlow/在OneFlow实现数据类型自动提升.md → docs/project/CUDA/在OneFlow实现数据类型自动提升.md
diff --git a/... Flowflops 详解深度学习网络的 FLOPs 和 MACs 计算方案.md → ... Flowflops 详解深度学习网络的 FLOPs 和 MACs 计算方案.md b/... Flowflops 详解深度学习网络的 FLOPs 和 MACs 计算方案.md → ... Flowflops 详解深度学习网络的 FLOPs 和 MACs 计算方案.md
diff --git a/...oject/OneFlow/基于OneFlow实现Unfold Fold算子.md → .../project/CUDA/基于OneFlow实现Unfold Fold算子.md b/...oject/OneFlow/基于OneFlow实现Unfold Fold算子.md → .../project/CUDA/基于OneFlow实现Unfold Fold算子.md
diff --git a/docs/project/OneFlow/基于OneFlow实现量化感知训练.md → docs/project/CUDA/基于OneFlow实现量化感知训练.md b/docs/project/OneFlow/基于OneFlow实现量化感知训练.md → docs/project/CUDA/基于OneFlow实现量化感知训练.md
diff --git a/docs/project/OneFlow/浅谈NVIDIA-H100白皮书.md → docs/project/CUDA/浅谈NVIDIA-H100白皮书.md b/docs/project/OneFlow/浅谈NVIDIA-H100白皮书.md → docs/project/CUDA/浅谈NVIDIA-H100白皮书.md
diff --git a/...ject/OneFlow/深度学习框架OneFlow是如何和ONNX交互的？.md → ...project/CUDA/深度学习框架OneFlow是如何和ONNX交互的？.md b/...ject/OneFlow/深度学习框架OneFlow是如何和ONNX交互的？.md → ...project/CUDA/深度学习框架OneFlow是如何和ONNX交互的？.md
diff --git a/docs/project/OneFlow/深度学习框架如何优雅的做算子对齐任务？.md → docs/project/CUDA/深度学习框架如何优雅的做算子对齐任务？.md b/docs/project/OneFlow/深度学习框架如何优雅的做算子对齐任务？.md → docs/project/CUDA/深度学习框架如何优雅的做算子对齐任务？.md
diff --git a/...OneFlow/深度学习框架量化感知训练的思考及OneFlow的一种解决方案.md → ...ct/CUDA/深度学习框架量化感知训练的思考及OneFlow的一种解决方案.md b/...OneFlow/深度学习框架量化感知训练的思考及OneFlow的一种解决方案.md → ...ct/CUDA/深度学习框架量化感知训练的思考及OneFlow的一种解决方案.md
diff --git a/...eFlow/详解 NVIDIA H100 TransformerEngine.md → .../CUDA/详解 NVIDIA H100 TransformerEngine.md b/...eFlow/详解 NVIDIA H100 TransformerEngine.md → .../CUDA/详解 NVIDIA H100 TransformerEngine.md
diff --git a/docs/project/OneFlow/README.md b/docs/project/OneFlow/README.md
diff --git a/docs/project/PyTorch/README.md b/docs/project/PyTorch/README.md
@@ -0,0 +1,4 @@
+# PyTorch相关的文章分享
+
+这个专栏记录一些PyTorch以及AI Infra相关的学习笔记。
+
diff --git a/docs/resources/llm_infra.md b/docs/resources/llm_infra.md
@@ -3,3 +3,5 @@
 - LLM和CUDA： https://github.com/BBuf/how-to-optim-algorithm-in-cuda
 - TVM和MLIR等深度学习编译器：https://github.com/BBuf/tvm_mlir_learn
 - PyTorch/OneFlow等深度学习框架：https://github.com/BBuf/how-to-learn-deep-learning-framework
+
+欢迎大家提pr补充
diff --git a/docs/resources/公众号文章按时间顺序的索引.md b/docs/resources/公众号文章按时间顺序的索引.md
@@ -1,5 +1,12 @@
 ## GiantPandaCV公众号发表和转载的的文章，按照时间顺序排列
 
-### todo
+对于手机端，可以通过在微信读书App中搜索GiantPandaCV找到公众号原创和转载的历史文章列表，如下图所示：
+
+<img width="1027" alt="图片" src="https://github.com/sustcsonglin/flash-linear-attention/assets/35585791/48b7ffa5-a22c-4b6e-a8da-a9cd3861d1dc">
+
+而对于电脑端，可以直接访问[这个链接](https://cloud.tencent.com/developer/user/4941972/articles)获取完整的历史文章列表并阅读，这个账号会定义自动爬取和同步GiantPandaCV的所有原创和转载文章，如下图所示：
+
+![图片](https://github.com/sustcsonglin/flash-linear-attention/assets/35585791/9ca3e10a-de7d-4f33-8956-97dd2186c030)
+
 
 
diff --git a/mkdocs.yml b/mkdocs.yml
@@ -571,44 +571,46 @@ nav:
             - 使用Msnhnet实现最优化问题(1)一(无约束优化问题): project/Msnhnet/使用Msnhnet实现最优化问题(1)一(无约束优化问题).md
             - 基于Msnhnet实现最优化问题(中)一(无约束优化问题): project/Msnhnet/基于Msnhnet实现最优化问题(中)一(无约束优化问题).md
             - 基于YOLOV5的数据集标注，训练，WindowsLinuxJetson Nano多平台部署全流程: project/Msnhnet/基于YOLOV5的数据集标注，训练，WindowsLinuxJetson Nano多平台部署全流程.md
-        - OneFlow或者CUDA相关的文章分享:
-            - 专栏介绍: project/OneFlow/README.md
-            - Oneflow 实现强化学习玩 Flappy Bird 小游戏: project/OneFlow/Oneflow 实现强化学习玩 Flappy Bird 小游戏.md
-            - 以OneFlow为例梳理深度学习框架的那些插值方法: project/OneFlow/以OneFlow为例梳理深度学习框架的那些插值方法.md
-            - 在OneFlow实现数据类型自动提升: project/OneFlow/在OneFlow实现数据类型自动提升.md
-            - 于OneFlow实现Unfold Fold算子: project/OneFlow/基于OneFlow实现Unfold Fold算子.md
-            - 基于OneFlow实现量化感知训练: project/OneFlow/基于OneFlow实现量化感知训练.md
-            - 深度学习框架OneFlow是如何和ONNX交互的: project/OneFlow/深度学习框架OneFlow是如何和ONNX交互的？.md
-            - 深度学习框架量化感知训练的思考及OneFlow的一种解决方案: project/OneFlow/深度学习框架量化感知训练的思考及OneFlow的一种解决方案.md
-            - Oneflow 添加算子实践 ---- 实现 Expand 和 Repeat: project/OneFlow/Oneflow 添加算子实践 ---- 实现 Expand 和 Repeat.md
-            - 使用OneFlow完成基于U型网络的ISBI细胞分割任务: project/OneFlow/使用OneFlow完成基于U型网络的ISBI细胞分割任务.md
-            - 深度学习框架如何优雅的做算子对齐任务？: project/OneFlow/深度学习框架如何优雅的做算子对齐任务？.md
-            - 一个Tensor在OneFlow的执行流程: project/OneFlow/一个Tensor在OneFlow的执行流程.md
-            - CUDA WarpReduce 学习笔记: project/OneFlow/CUDA WarpReduce 学习笔记.md
-            - 浅谈NVIDIA-H100白皮书: project/OneFlow/浅谈NVIDIA-H100白皮书.md
-            - HugeCTR源码简单走读: project/OneFlow/HugeCTR源码简单走读_zzk.md
-            - 基于 Flowflops 详解深度学习网络的 FLOPs 和 MACs 计算方案: project/OneFlow/基于 Flowflops 详解深度学习网络的 FLOPs 和 MACs 计算方案.md
-            - 详解 NVIDIA H100 TransformerEngine: project/OneFlow/详解 NVIDIA H100 TransformerEngine.md
-            - 【BBuf的CUDA笔记】一，解析OneFlow Element-Wise 算子实现: project/OneFlow/【BBuf的CUDA笔记】一，解析OneFlow Element-Wise 算子实现.md
-            - 【BBuf的CUDA笔记】二，解析 OneFlow BatchNorm 相关算子实现: project/OneFlow/【BBuf的CUDA笔记】二，解析 OneFlow BatchNorm 相关算子实现.md
-            - 【BBuf的CUDA笔记】三，reduce优化入门学习笔记: project/OneFlow/【BBuf的CUDA笔记】三，reduce优化入门学习笔记.md
-            - 【BBuf的CUDA笔记】四，介绍三个高效实用的CUDA算法实现（OneFlow ElementWise模板，FastAtomicAdd模板，OneFlow UpsampleNearest2d模板）: project/OneFlow/【BBuf的CUDA笔记】四，介绍三个高效实用的CUDA算法实现（OneFlow ElementWise模板，FastAtomicAdd模板，OneFlow UpsampleNearest2d模板）.md
-            - 【BBuf的CUDA笔记】五，解读 PyTorch index_add 操作涉及的优化技术: project/OneFlow/【BBuf的CUDA笔记】五，解读 PyTorch index_add 操作涉及的优化技术.md
-            - 【BBuf的CUDA笔记】六，总结 FasterTransformer Encoder(BERT) 的cuda相关优化技巧: project/OneFlow/【BBuf的CUDA笔记】六，总结 FasterTransformer Encoder(BERT) 的cuda相关优化技巧.md
+        - CUDA相关的文章分享:
+            - 专栏介绍: project/CUDA/README.md
+            - Oneflow 实现强化学习玩 Flappy Bird 小游戏: project/CUDA/Oneflow 实现强化学习玩 Flappy Bird 小游戏.md
+            - 以OneFlow为例梳理深度学习框架的那些插值方法: project/CUDA/以OneFlow为例梳理深度学习框架的那些插值方法.md
+            - 在OneFlow实现数据类型自动提升: project/CUDA/在OneFlow实现数据类型自动提升.md
+            - 于OneFlow实现Unfold Fold算子: project/CUDA/基于OneFlow实现Unfold Fold算子.md
+            - 基于OneFlow实现量化感知训练: project/CUDA/基于OneFlow实现量化感知训练.md
+            - 深度学习框架OneFlow是如何和ONNX交互的: project/CUDA/深度学习框架OneFlow是如何和ONNX交互的？.md
+            - 深度学习框架量化感知训练的思考及OneFlow的一种解决方案: project/CUDA/深度学习框架量化感知训练的思考及OneFlow的一种解决方案.md
+            - Oneflow 添加算子实践 ---- 实现 Expand 和 Repeat: project/CUDA/Oneflow 添加算子实践 ---- 实现 Expand 和 Repeat.md
+            - 使用OneFlow完成基于U型网络的ISBI细胞分割任务: project/CUDA/使用OneFlow完成基于U型网络的ISBI细胞分割任务.md
+            - 深度学习框架如何优雅的做算子对齐任务？: project/CUDA/深度学习框架如何优雅的做算子对齐任务？.md
+            - 一个Tensor在OneFlow的执行流程: project/CUDA/一个Tensor在OneFlow的执行流程.md
+            - CUDA WarpReduce 学习笔记: project/CUDA/CUDA WarpReduce 学习笔记.md
+            - 浅谈NVIDIA-H100白皮书: project/CUDA/浅谈NVIDIA-H100白皮书.md
+            - HugeCTR源码简单走读: project/CUDA/HugeCTR源码简单走读_zzk.md
+            - 基于 Flowflops 详解深度学习网络的 FLOPs 和 MACs 计算方案: project/CUDA/基于 Flowflops 详解深度学习网络的 FLOPs 和 MACs 计算方案.md
+            - 详解 NVIDIA H100 TransformerEngine: project/CUDA/详解 NVIDIA H100 TransformerEngine.md
+            - 【BBuf的CUDA笔记】一，解析OneFlow Element-Wise 算子实现: project/CUDA/【BBuf的CUDA笔记】一，解析OneFlow Element-Wise 算子实现.md
+            - 【BBuf的CUDA笔记】二，解析 OneFlow BatchNorm 相关算子实现: project/CUDA/【BBuf的CUDA笔记】二，解析 OneFlow BatchNorm 相关算子实现.md
+            - 【BBuf的CUDA笔记】三，reduce优化入门学习笔记: project/CUDA/【BBuf的CUDA笔记】三，reduce优化入门学习笔记.md
+            - 【BBuf的CUDA笔记】四，介绍三个高效实用的CUDA算法实现（OneFlow ElementWise模板，FastAtomicAdd模板，OneFlow UpsampleNearest2d模板）: project/CUDA/【BBuf的CUDA笔记】四，介绍三个高效实用的CUDA算法实现（OneFlow ElementWise模板，FastAtomicAdd模板，OneFlow UpsampleNearest2d模板）.md
+            - 【BBuf的CUDA笔记】五，解读 PyTorch index_add 操作涉及的优化技术: project/CUDA/【BBuf的CUDA笔记】五，解读 PyTorch index_add 操作涉及的优化技术.md
+            - 【BBuf的CUDA笔记】六，总结 FasterTransformer Encoder(BERT) 的cuda相关优化技巧: project/CUDA/【BBuf的CUDA笔记】六，总结 FasterTransformer Encoder(BERT) 的cuda相关优化技巧.md
             - 【BBuf的CUDA笔记】七，总结 FasterTransformer Decoder(GPT) 的cuda相关优化技巧: project/部署优化/【BBuf的CUDA笔记】七，总结 FasterTransformer Decoder(GPT) 的cuda相关优化技巧.md
-            - 【BBuf的CUDA笔记】八，对比学习OneFlow 和 FasterTransformer 的 Softmax Cuda实现: project/OneFlow/【BBuf的CUDA笔记】八，对比学习OneFlow 和 FasterTransformer 的 Softmax Cuda实现.md
-            - 【BBuf的CUDA笔记】九，使用newbing（chatgpt）解析oneflow softmax相关的fuse优化: project/OneFlow/【BBuf的CUDA笔记】九，使用newbing（chatgpt）解析oneflow softmax相关的fuse优化.md
-            - CodeGeeX 130亿参数大模型的调优笔记：比FasterTransformer更快的解决方案: project/OneFlow/CodeGeeX 130亿参数大模型的调优笔记：比FasterTransformer更快的解决方案.md
-            - ChatGPT和Claude 对比测试以Review MLIR Codegen代码为例: project/OneFlow/ChatGPT和Claude 对比测试以Review MLIR Codegen代码为例.md
-            - 【BBuf的CUDA笔记】十，Linear Attention的cuda kernel实现解析: project/OneFlow/【BBuf的CUDA笔记】十，Linear Attention的cuda kernel实现解析.md
-            - 【BBuf的CUDA笔记】十一，Linear Attention的cuda kernel实现补档: project/OneFlow/【BBuf的CUDA笔记】十一，Linear Attention的cuda kernel实现补档.md
-            - 乱谈CUTLASS GTC2020 SLIDES: project/OneFlow/乱谈CUTLASS GTC2020 SLIDES.md
-            - 可能是讲得最清楚的WeightOnlyGEMM: project/OneFlow/可能是讲得最清楚的WeightOnlyGEMM.md
-            - 【BBuf的CUDA笔记】十二，LayerNorm，RMSNorm的重计算实现: project/OneFlow/【BBuf的CUDA笔记】十二，LayerNorm，RMSNorm的重计算实现.md
-            - 【BBuf的CUDA笔记】十三，OpenAI Triton 入门笔记一: project/OneFlow/【BBuf的CUDA笔记】十三，OpenAI Triton 入门笔记一.md
-            - 【BBuf的CUDA笔记】十四，OpenAI Triton入门笔记二: project/OneFlow/【BBuf的CUDA笔记】十四，OpenAI Triton入门笔记二.md
-            - 【BBuf的CUDA笔记】十五，OpenAI Triton入门笔记三 FusedAttention: project/OneFlow/【BBuf的CUDA笔记】十五，OpenAI Triton入门笔记三 FusedAttention.md
+            - 【BBuf的CUDA笔记】八，对比学习OneFlow 和 FasterTransformer 的 Softmax Cuda实现: project/CUDA/【BBuf的CUDA笔记】八，对比学习OneFlow 和 FasterTransformer 的 Softmax Cuda实现.md
+            - 【BBuf的CUDA笔记】九，使用newbing（chatgpt）解析oneflow softmax相关的fuse优化: project/CUDA/【BBuf的CUDA笔记】九，使用newbing（chatgpt）解析oneflow softmax相关的fuse优化.md
+            - CodeGeeX 130亿参数大模型的调优笔记：比FasterTransformer更快的解决方案: project/CUDA/CodeGeeX 130亿参数大模型的调优笔记：比FasterTransformer更快的解决方案.md
+            - ChatGPT和Claude 对比测试以Review MLIR Codegen代码为例: project/CUDA/ChatGPT和Claude 对比测试以Review MLIR Codegen代码为例.md
+            - 【BBuf的cuda学习笔记十】Megatron-LM的gradient_accumulation_fusion优化: project/CUDA/【BBuf的cuda学习笔记十】Megatron-LM的gradient_accumulation_fusion优化.md
+            - 【BBuf的CUDA笔记】十，Linear Attention的cuda kernel实现解析: project/CUDA/【BBuf的CUDA笔记】十，Linear Attention的cuda kernel实现解析.md
+            - 【BBuf的CUDA笔记】十一，Linear Attention的cuda kernel实现补档: project/CUDA/【BBuf的CUDA笔记】十一，Linear Attention的cuda kernel实现补档.md
+            - 乱谈CUTLASS GTC2020 SLIDES: project/CUDA/乱谈CUTLASS GTC2020 SLIDES.md
+            - 可能是讲得最清楚的WeightOnlyGEMM: project/CUDA/可能是讲得最清楚的WeightOnlyGEMM.md
+            - 【BBuf的CUDA笔记】十二，LayerNorm，RMSNorm的重计算实现: project/CUDA/【BBuf的CUDA笔记】十二，LayerNorm，RMSNorm的重计算实现.md
+            - 【BBuf的CUDA笔记】十三，OpenAI Triton 入门笔记一: project/CUDA/【BBuf的CUDA笔记】十三，OpenAI Triton 入门笔记一.md
+            - 【BBuf的CUDA笔记】十四，OpenAI Triton入门笔记二: project/CUDA/【BBuf的CUDA笔记】十四，OpenAI Triton入门笔记二.md
+            - 【BBuf的CUDA笔记】十五，OpenAI Triton入门笔记三 FusedAttention: project/CUDA/【BBuf的CUDA笔记】十五，OpenAI Triton入门笔记三 FusedAttention.md
         - PyTorch:
+            - 专栏介绍: project/PyTorch/README.md
             - 用沐神的方法阅读PyTorch FX论文: project/PyTorch/用沐神的方法阅读PyTorch FX论文.md
             - 一文理解PyTorch中的SyncBatchNorm: project/PyTorch/一文理解PyTorch中的SyncBatchNorm.md
             - 【DeepSpeed 教程翻译】开始，安装细节和CIFAR-10 Tutorial: project/PyTorch/【DeepSpeed 教程翻译】开始，安装细节和CIFAR-10 Tutorial.md
@@ -618,7 +620,6 @@ nav:
             - DeepSpeed-Chat 打造类ChatGPT全流程 笔记一: project/PyTorch/DeepSpeed-Chat 打造类ChatGPT全流程 笔记一.md
             - DeepSpeed-Chat 打造类ChatGPT全流程 笔记二之监督指令微调: project/PyTorch/DeepSpeed-Chat 打造类ChatGPT全流程 笔记二之监督指令微调.md
             - 【DeepSpeed 教程】四，DeepSpeed ZeRO++博客和代码解析: project/PyTorch/【DeepSpeed 教程】四，DeepSpeed ZeRO++博客和代码解析.md
-            - 【BBuf的cuda学习笔记十】Megatron-LM的gradient_accumulation_fusion优化: project/PyTorch/【BBuf的cuda学习笔记十】Megatron-LM的gradient_accumulation_fusion优化.md
             - XLA和PyTorch的桥接: project/PyTorch/XLA和PyTorch的桥接.md
             - 《PytorchConference2023 翻译系列》1-Pytorch2.0与社区现状介绍: project/PyTorch/《PytorchConference2023 翻译系列》1-Pytorch2.0与社区现状介绍.md
             - 《PytorchConference2023 翻译系列》2-PyTorch开发者基础设施: project/PyTorch/《PytorchConference2023 翻译系列》2-PyTorch开发者基础设施.md
@@ -831,10 +832,10 @@ nav:
         - ALITA用于自动驾驶的大规模增量数据集: resources/ALITA用于自动驾驶的大规模增量数据集.md
     - VIDEO:
         - video: video/video_1.md
-    - 公众号文章按时间顺序的索引:
-        - 公众号文章按时间顺序的索引: resources/公众号文章按时间顺序的索引.md
-    - 大模型，CUDA，深度学习框架，AI Infra，AI 编译器学习资料汇总:
-        - 大模型，CUDA，深度学习框架，AI Infra，AI 编译器学习资料汇总: resources/llm_infra.md
+    - History List:
+        - History List: resources/公众号文章按时间顺序的索引.md
+    - Github Resources:
+        - Github Resources: resources/llm_infra.md
 
 # Theme
 theme: