Skip to content

Commit 3915db1

Browse files
committed
update-2024-10-13_14:23:46
1 parent ed87784 commit 3915db1

File tree

4 files changed

+11
-5
lines changed

4 files changed

+11
-5
lines changed

.DS_Store

0 Bytes
Binary file not shown.

README.md

+11-5
Original file line numberDiff line numberDiff line change
@@ -200,8 +200,13 @@
200200
- [大模型推理优化技术-KV Cache](https://www.zhihu.com/question/653658936/answer/3569365986)
201201
- [大模型推理服务调度优化技术-Continuous batching](https://zhuanlan.zhihu.com/p/719610083)
202202
- [大模型底显存推理优化-Offload技术](https://juejin.cn/post/7405158045628596224)
203-
- FlashAttention
204-
- PagedAttention
203+
- [大模型推理优化技术-KV Cache量化](https://juejin.cn/post/7420231738558627874)
204+
- [大模型推理优化技术-KV Cache优化方法综述]()
205+
- 大模型吞吐优化技术-多LoRA推理服务
206+
- 大模型推理服务调度优化技术-公平性调度
207+
- 大模型访存优化技术-FlashAttention
208+
- 大模型显存优化技术-PagedAttention
209+
- 大模型解码优化-Speculative Decoding及其变体
205210
- Flash Decoding
206211
- FlashDecoding++
207212

@@ -233,10 +238,11 @@
233238
- [大模型量化技术原理:ZeroQuant系列](https://zhuanlan.zhihu.com/p/683813769)
234239
- [大模型量化技术原理:FP8](https://www.zhihu.com/question/658712811/answer/3596678896)
235240
- [大模型量化技术原理:FP6](https://juejin.cn/post/7412893752090853386)
241+
- [大模型量化技术原理:KIVI、IntactKV、KVQuant](https://juejin.cn/post/7420231738558627874)
242+
- [大模型量化技术原理:Atom、QuaRot](https://juejin.cn/post/7424334647570513972)
243+
- [大模型量化技术原理:QoQ量化及QServe推理服务系统]()
244+
- 大模型量化技术原理:QuIP、QuIP#、OmniQuant
236245
- [大模型量化技术原理:FP4]()
237-
- 大模型量化技术原理:KIVI、IntactKV、KVQuant
238-
- 大模型量化技术原理:QServe(QoQ)、GEAR、QuaRot
239-
- 大模型量化技术原理:QuIP、QuIP#
240246
- [大模型量化技术原理:总结]()
241247

242248

llm-performance/.DS_Store

0 Bytes
Binary file not shown.

llm-performance/mindie/.DS_Store

0 Bytes
Binary file not shown.

0 commit comments

Comments
 (0)