Add explicit multiply-reduce GEMM kernel #621

brunomazzottiamd · 2024-07-30T19:23:02Z

Add kernel that implements GEMM with explicit multiply-reduce instructions for small block sizes. Such
small block sizes aren't natively supported by tl.dot operator.

Despite being numerically correct, this kernel performed worse than a corresponding GEMM kernel that
used tl.dot with minimum block size equal to $16$:

MI300 Results for FP16:

trans	M	N	K	Dot GiBps	Multiply-Reduce GiBps	Speedup
TN	1	8192	28672	3491.33	2869.87	0.82
TN	1	6144	6144	3858.22	2673.33	0.69
TN	1	4096	4096	2352.54	1680.93	0.71
TN	2	16384	16384	3412.17	3318.44	0.97

The code is based on tune_gemm matmul_kernel from commit cf44637 (see triton-mlir branch).

python/perf-kernels/multreduce_matmul_kernel.py

python/perf-kernels/README.md

python/perf-kernels/multreduce_matmul_kernel.py

brunomazzottiamd · 2024-07-31T13:00:46Z

The related issue is https://github.com/ROCm/triton-internal/issues/169.

brunomazzottiamd · 2024-08-06T17:18:51Z

@xiaohuguo2023 told me we can merge PRs by ourselves once we have one approval. I'll do it.

Add explicit multiply-reduce GEMM kernel

855695c

brunomazzottiamd self-assigned this Jul 30, 2024

brunomazzottiamd requested a review from vgokhale July 30, 2024 19:23

vgokhale reviewed Jul 30, 2024

View reviewed changes

python/perf-kernels/multreduce_matmul_kernel.py Outdated Show resolved Hide resolved

vgokhale reviewed Jul 30, 2024

View reviewed changes

python/perf-kernels/multreduce_matmul_kernel.py Outdated Show resolved Hide resolved

brunomazzottiamd added 2 commits July 30, 2024 20:26

Remove SPLIT_K argument from kernel

9cbebf0

Remove GROUP_SIZE_M argument from kernel

dd161e5

vgokhale reviewed Jul 30, 2024

View reviewed changes

python/perf-kernels/README.md Outdated Show resolved Hide resolved

vgokhale reviewed Jul 30, 2024

View reviewed changes

python/perf-kernels/multreduce_matmul_kernel.py Outdated Show resolved Hide resolved

brunomazzottiamd added 2 commits July 31, 2024 12:38

Remove conditional call to tl.dot from kernel

2bba0d0

Remove table with performance data from README

dc7a5f7

vgokhale approved these changes Jul 31, 2024

View reviewed changes

brunomazzottiamd merged commit 1d2e066 into ROCm:main_perf Aug 6, 2024
4 checks passed

brunomazzottiamd deleted the 169-add-multreduce-gemm-kernel branch August 14, 2024 13:48

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add explicit multiply-reduce GEMM kernel #621

Add explicit multiply-reduce GEMM kernel #621

brunomazzottiamd commented Jul 30, 2024

brunomazzottiamd commented Jul 31, 2024

brunomazzottiamd commented Aug 6, 2024

Add explicit multiply-reduce GEMM kernel #621

Add explicit multiply-reduce GEMM kernel #621

Conversation

brunomazzottiamd commented Jul 30, 2024

brunomazzottiamd commented Jul 31, 2024

brunomazzottiamd commented Aug 6, 2024