liguodongiot
diff --git a/‎ai-infra/ai-hardware/内存/README.md ‎ai-infra/ai-hardware/存储/README.md b/‎ai-infra/ai-hardware/内存/README.md ‎ai-infra/ai-hardware/存储/README.md
diff --git a/‎ai-infra/ai-hardware/内存/REF.md ‎ai-infra/ai-hardware/存储/REF.md b/‎ai-infra/ai-hardware/内存/REF.md ‎ai-infra/ai-hardware/存储/REF.md
diff --git a/‎ai-infra/network-communication/HPC性能测试.md ‎ai-infra/网络/HPC性能测试.md b/‎ai-infra/network-communication/HPC性能测试.md ‎ai-infra/网络/HPC性能测试.md
diff --git a/‎ai-infra/网络/IB-docker.md
+10 b/‎ai-infra/网络/IB-docker.md
+10
diff --git a/‎ai-infra/network-communication/IB流量监控.md ‎ai-infra/网络/IB流量监控.md b/‎ai-infra/network-communication/IB流量监控.md ‎ai-infra/网络/IB流量监控.md
diff --git a/‎ai-infra/network-communication/IB软件.md ‎ai-infra/网络/IB软件.md b/‎ai-infra/network-communication/IB软件.md ‎ai-infra/网络/IB软件.md
diff --git a/‎ai-infra/network-communication/InfiniBand.md ‎ai-infra/网络/InfiniBand.md b/‎ai-infra/network-communication/InfiniBand.md ‎ai-infra/网络/InfiniBand.md
diff --git a/‎ai-infra/network-communication/NCCL.md ‎ai-infra/网络/NCCL.md b/‎ai-infra/network-communication/NCCL.md ‎ai-infra/网络/NCCL.md
diff --git a/‎ai-infra/network-communication/README.md ‎ai-infra/网络/README.md b/‎ai-infra/network-communication/README.md ‎ai-infra/网络/README.md
diff --git a/‎ai-infra/network-communication/REF.md ‎ai-infra/网络/REF.md b/‎ai-infra/network-communication/REF.md ‎ai-infra/网络/REF.md
diff --git a/‎ai-infra/network-communication/Spine-Leaf和InfiniBand网络架构区别简述.md ‎ai-infra/网络/Spine-Leaf和InfiniBand网络架构区别简述.md b/‎ai-infra/network-communication/Spine-Leaf和InfiniBand网络架构区别简述.md ‎ai-infra/网络/Spine-Leaf和InfiniBand网络架构区别简述.md
diff --git a/‎ai-infra/network-communication/nccl-test-集合通讯的性能测试.md ‎ai-infra/网络/nccl-test-集合通讯的性能测试.md b/‎ai-infra/network-communication/nccl-test-集合通讯的性能测试.md ‎ai-infra/网络/nccl-test-集合通讯的性能测试.md
diff --git a/‎ai-infra/network-communication/nvbandwidth.md ‎ai-infra/网络/nvbandwidth.md b/‎ai-infra/network-communication/nvbandwidth.md ‎ai-infra/网络/nvbandwidth.md
diff --git a/‎ai-infra/network-communication/pic/8卡V100的混合网络拓扑.png ‎ai-infra/网络/pic/8卡V100的混合网络拓扑.png b/‎ai-infra/network-communication/pic/8卡V100的混合网络拓扑.png ‎ai-infra/网络/pic/8卡V100的混合网络拓扑.png
diff --git a/‎ai-infra/network-communication/pic/A800-H100-H800.jpeg ‎ai-infra/网络/pic/A800-H100-H800.jpeg b/‎ai-infra/network-communication/pic/A800-H100-H800.jpeg ‎ai-infra/网络/pic/A800-H100-H800.jpeg
diff --git a/‎ai-infra/network-communication/pic/NVLink-generations比较.png ‎ai-infra/网络/pic/NVLink-generations比较.png b/‎ai-infra/network-communication/pic/NVLink-generations比较.png ‎ai-infra/网络/pic/NVLink-generations比较.png
diff --git a/‎ai-infra/network-communication/pic/PCIe-Generation对比.png ‎ai-infra/网络/pic/PCIe-Generation对比.png b/‎ai-infra/network-communication/pic/PCIe-Generation对比.png ‎ai-infra/网络/pic/PCIe-Generation对比.png
diff --git a/‎ai-infra/network-communication/pic/nvidia-dgx-1-v100-nvlink-gpu-xeon-config.webp ‎ai-infra/网络/pic/nvidia-dgx-1-v100-nvlink-gpu-xeon-config.webp b/‎ai-infra/network-communication/pic/nvidia-dgx-1-v100-nvlink-gpu-xeon-config.webp ‎ai-infra/网络/pic/nvidia-dgx-1-v100-nvlink-gpu-xeon-config.webp
diff --git a/‎ai-infra/network-communication/pic/nvidia-dgx-1-with-volta.webp ‎ai-infra/网络/pic/nvidia-dgx-1-with-volta.webp b/‎ai-infra/network-communication/pic/nvidia-dgx-1-with-volta.webp ‎ai-infra/网络/pic/nvidia-dgx-1-with-volta.webp
diff --git a/‎ai-infra/network-communication/pic/nvlink.png ‎ai-infra/网络/pic/nvlink.png b/‎ai-infra/network-communication/pic/nvlink.png ‎ai-infra/网络/pic/nvlink.png
diff --git a/‎ai-infra/network-communication/pic/nvlink性能.png ‎ai-infra/网络/pic/nvlink性能.png b/‎ai-infra/network-communication/pic/nvlink性能.png ‎ai-infra/网络/pic/nvlink性能.png
diff --git a/‎ai-infra/network-communication/pic/nvswitch.png ‎ai-infra/网络/pic/nvswitch.png b/‎ai-infra/network-communication/pic/nvswitch.png ‎ai-infra/网络/pic/nvswitch.png
diff --git a/‎ai-infra/network-communication/pic/支持 NVLink GPU 之间连接的 NVIDIA H100-1.png ‎ai-infra/网络/pic/支持 NVLink GPU 之间连接的 NVIDIA H100-1.png b/‎ai-infra/network-communication/pic/支持 NVLink GPU 之间连接的 NVIDIA H100-1.png ‎ai-infra/网络/pic/支持 NVLink GPU 之间连接的 NVIDIA H100-1.png
diff --git a/‎ai-infra/network-communication/pic/支持 NVLink GPU 之间连接的 NVIDIA H100-2.png ‎ai-infra/网络/pic/支持 NVLink GPU 之间连接的 NVIDIA H100-2.png b/‎ai-infra/network-communication/pic/支持 NVLink GPU 之间连接的 NVIDIA H100-2.png ‎ai-infra/网络/pic/支持 NVLink GPU 之间连接的 NVIDIA H100-2.png
diff --git a/‎ai-infra/network-communication/pic/服务器之间的nvlink与nvswitch.png ‎ai-infra/网络/pic/服务器之间的nvlink与nvswitch.png b/‎ai-infra/network-communication/pic/服务器之间的nvlink与nvswitch.png ‎ai-infra/网络/pic/服务器之间的nvlink与nvswitch.png
diff --git a/‎ai-infra/network-communication/pic/网络之间的连接.png ‎ai-infra/网络/pic/网络之间的连接.png b/‎ai-infra/network-communication/pic/网络之间的连接.png ‎ai-infra/网络/pic/网络之间的连接.png
diff --git a/‎ai-infra/network-communication/pic/英伟达A100-A800-H100-H800.jpeg ‎ai-infra/网络/pic/英伟达A100-A800-H100-H800.jpeg b/‎ai-infra/network-communication/pic/英伟达A100-A800-H100-H800.jpeg ‎ai-infra/网络/pic/英伟达A100-A800-H100-H800.jpeg
diff --git a/‎ai-infra/network-communication/ringallreduce/All Gather 流程图.gif ‎ai-infra/网络/ringallreduce/All Gather 流程图.gif b/‎ai-infra/network-communication/ringallreduce/All Gather 流程图.gif ‎ai-infra/网络/ringallreduce/All Gather 流程图.gif
diff --git a/‎ai-infra/network-communication/ringallreduce/Scatter Reduce 流程图.gif ‎ai-infra/网络/ringallreduce/Scatter Reduce 流程图.gif b/‎ai-infra/network-communication/ringallreduce/Scatter Reduce 流程图.gif ‎ai-infra/网络/ringallreduce/Scatter Reduce 流程图.gif
diff --git a/‎ai-infra/network-communication/roce.md ‎ai-infra/网络/roce.md b/‎ai-infra/network-communication/roce.md ‎ai-infra/网络/roce.md
diff --git a/‎ai-infra/network-communication/网络硬件.md ‎ai-infra/网络/网络硬件.md b/‎ai-infra/network-communication/网络硬件.md ‎ai-infra/网络/网络硬件.md
diff --git a/‎ai-infra/network-communication/通信软件.md ‎ai-infra/网络/通信软件.md b/‎ai-infra/network-communication/通信软件.md ‎ai-infra/网络/通信软件.md
diff --git a/‎llm-compression/quantization/fp8.md
+24 b/‎llm-compression/quantization/fp8.md
+24
diff --git a/‎llm-inference/vllm/REF.md
+16 b/‎llm-inference/vllm/REF.md
+16
diff --git a/‎llm-localization/ascend/soc版本.md ‎llm-localization/ascend/昇腾卡-soc版本.md b/‎llm-localization/ascend/soc版本.md ‎llm-localization/ascend/昇腾卡-soc版本.md
diff --git a/‎llm-localization/ascend/昇腾卡注意事项.md
+15 b/‎llm-localization/ascend/昇腾卡注意事项.md
+15
diff --git a/‎llm-performance/vllm-benchmark.md
+13 b/‎llm-performance/vllm-benchmark.md
+13
diff --git a/‎llm-performance/vllm/README.md b/‎llm-performance/vllm/README.md
diff --git a/‎paper/README.md
-11 b/‎paper/README.md
-11
diff --git a/‎paper/training/重计算.md ‎paper/training/Reducing Activation Recomputation in Large Transformer Models.md
+3 b/‎paper/training/重计算.md ‎paper/training/Reducing Activation Recomputation in Large Transformer Models.md
+3
@@ -0,0 +1,10 @@
+
+
+
+
+
+
+
+```
+yum install libibverbs
+```
@@ -0,0 +1,24 @@
+
+
+
+https://arxiv.org/pdf/2209.05433
+
+FP8 FORMATS FOR DEEP LEARNING
+
+
+
+FP8 Quantization: The Power of the Exponent
+
+https://arxiv.org/pdf/2208.09225
+
+
+https://zhuanlan.zhihu.com/p/574825662
+
+FP8 量化-原理、实现与误差分析
+
+
+https://zhuanlan.zhihu.com/p/619431625
+
+FP8 量化基础
+
+
@@ -0,0 +1,16 @@
+
+
+引擎启动参数：
+
+https://docs.vllm.ai/en/stable/models/engine_args.html
+
+
+
+max-num-seqs：默认 256，
+
+当 max-num-seqs 比较小时，较迟接收到的 request 会进入 waiting_list，直到前面有request 结束后再被添加进生成队列。
+
+当 max-num-seqs 太大时，会出现一部分 request 在生成了 3-4 个 tokens 之后，被加入到 waiting_list（有些用户出现生成到一半卡住的情况）。过大或过小的 max-num-seqs 都会影响用户体验。
+
+
+max-num-batched-tokens：很重要的配置，比如你配置了 max-num-batched-tokens=1000 那么你大概能在一个 batch 里面处理 10 条平均长度约为 100 tokens 的 inputs。max-num-batched-tokens 应尽可能大，来充分发挥 continuous batching 的优势。不过似乎（对于 TGI 是这样，vllm 不太确定），在提供 HF 模型时，该 max-num-batched-tokens 能够被自动推导出来。
@@ -0,0 +1,15 @@
+
+
+
+--privileged 特权模型下，昇腾或者英伟达的 docker runtime 中会默认分配本机所有卡。
+
+
+
+- ASCEND_VISIBLE_DEVICES   容器级控制卡
+- ASCEND_RT_VISIBLE_DEVICES  进程级控制卡    类似于 CUDA_VISIBLE_DEVICES
+
+
+
+
+
+
@@ -50,3 +50,16 @@ print(f"Throughput: {len(requests) / elapsed_time:.2f} requests/s, "
 
 
 
+
+```
+# run python-based benchmarks and upload the result to buildkite
+python3 benchmarks/benchmark_latency.py --output-json latency_results.json 2>&1 | tee benchmark_latency.txt
+bench_latency_exit_code=$?
+
+python3 benchmarks/benchmark_throughput.py --input-len 256 --output-len 256 --output-json throughput_results.json 2>&1 | tee benchmark_throughput.txt
+bench_throughput_exit_code=$?
+```
+
+
+
+
@@ -3,14 +3,3 @@
 
 
 
-
-Reducing Activation Recomputation in Large Transformer Models：https://arxiv.org/pdf/2205.05198
-
-**选择性激活重计算**（selective activation recomputation），是一种策略，即只对那些**占用大量内存但重新计算成本不高的Transformer层的部分激活进行存储和重计算**。例如，在自注意力机制中，某些操作（如: $QK^T$矩阵乘法、softmax、softmax dropout和对V的注意力）会产生较大的激活，但每个输入元素所需的浮点运算次数却相对较低。通过选择性地存储这些激活，可以在使用较少内存的同时，以较低的计算开销重新计算未存储的激活。
-
-
-
-通过结合使用序列并行性（sequence parallelism）和张量并行性（tensor parallelism），以及选择性激活重计算，论文中的方法能够在减少5倍激活内存需求的同时，将由激活重计算引起的执行时间开销降低90%以上。这使得在大规模参数的语言模型上训练变换器模型变得更加高效。
-
-
-
@@ -7,7 +7,10 @@ Reducing Activation Recomputation in Large Transformer Models：https://arxiv.or
 **选择性激活重计算**（selective activation recomputation），是一种策略，即只对那些**占用大量内存但重新计算成本不高的Transformer层的部分激活进行存储和重计算**。例如，在自注意力机制中，某些操作（如: $QK^T$矩阵乘法、softmax、softmax dropout和对V的注意力）会产生较大的激活，但每个输入元素所需的浮点运算次数却相对较低。通过选择性地存储这些激活，可以在使用较少内存的同时，以较低的计算开销重新计算未存储的激活。
 
 
+
 通过结合使用序列并行性（sequence parallelism）和张量并行性（tensor parallelism），以及选择性激活重计算，论文中的方法能够在减少5倍激活内存需求的同时，将由激活重计算引起的执行时间开销降低90%以上。这使得在大规模参数的语言模型上训练变换器模型变得更加高效。
 
 
 
+
+
-Original file line number
+Diff line change
++
++
++
++
++
++
++
 +```
 +yum install libibverbs
 +```