请问算子融合的实现主要在哪里呢？ #964

KindredSpirithub · 2024-08-14T08:17:42Z

我了解到OpenPPL-LLM有执行四个关键的算子融合：1）我们将合并残差链接与归一化层之间的操作全部融合，这将减少数次对全局内存的访问；2）我们将横向合并Q, K, V矩阵乘，更大规模的矩阵乘将更充分地利用算力；3）我们将合并Rotary Embedding的相关操作，这将减少数次全局内存访问；4）我们将使用flash attention这一较高性能的实现。
请问一些融合的实现在代码中的那个位置呢？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

请问算子融合的实现主要在哪里呢？ #964

请问算子融合的实现主要在哪里呢？ #964

KindredSpirithub commented Aug 14, 2024

请问算子融合的实现主要在哪里呢？ #964

请问算子融合的实现主要在哪里呢？ #964

Comments

KindredSpirithub commented Aug 14, 2024