[TL] Add example usage/test case for Dynamic Symbolic #191

LeiWang1999 · 2024-09-26T12:56:58Z

New Test File:

Added a new test file testing/python/tilelang/test_tilelang_dyanmic_symbolic.py to test dynamic symbolic operations using the TensorCoreIntrinEmitter class.

Example Usage

Describe Computation with Dynamic Symbolic.

M = tvm.te.var("m")
A_shape = (M, K)
B_shape = (N, K)
A_shared_shape = (block_M, block_K)
B_shared_shape = (block_N, block_K)

import tvm.tl.language as T

@T.prim_func
def main(A: T.Buffer(A_shape, dtypeAB), B: T.Buffer(B_shape, dtypeAB), C: T.Buffer((M, N),
                                                                                    dtypeC)):
    with T.Kernel(T.ceildiv(N, block_N), T.ceildiv(M, block_M), threads=threads) as (bx, by):
        A_shared = T.alloc_shared(A_shared_shape, dtypeAB)
        B_shared = T.alloc_shared(B_shared_shape, dtypeAB)
        C_local = T.alloc_fragment((block_M, block_N), accum_dtype)
        T.clear(C_local)
        for k in T.Pipelined(T.ceildiv(K, block_K), num_stages=num_stages):
            T.copy(A[by * block_M, k * block_K], A_shared)
            T.copy(B[bx * block_N, k * block_K], B_shared)
            T.gemm(A_shared, B_shared, C_local, trans_B=True)
        T.copy(C_local, C[by * block_M, bx * block_N])

Below is the generated kernel :

#include <tl_templates/gemm.h>
#include <tl_templates/copy.h>
#include <tl_templates/reduce.h>
#include <tl_templates/ldsm.h>
#include <tl_templates/threadblock_swizzle.h>

extern "C" __global__ void __launch_bounds__(128) main_kernel(half_t* __restrict__ A, half_t* __restrict__ B, half_t* __restrict__ C, int m) {
  extern __shared__ __align__(1024) uchar buf_dyn_shmem[];
  half_t C_local[32];
  #pragma unroll
  for (int i = 0; i < 16; ++i) {
    *(uint1*)(C_local + (i * 2)) = make_uint1(__pack_half2(half_t(0.000000e+00f), half_t(0.000000e+00f)));
  }
  #pragma unroll
  for (int i_1 = 0; i_1 < 2; ++i_1) {
    tl::cp_async_gs_conditional<16>(buf_dyn_shmem+((((i_1 * 2048) + ((((int)threadIdx.x) >> 2) * 64)) + (((((((int)threadIdx.x) & 31) >> 4) + ((((int)threadIdx.x) & 3) >> 1)) & 1) * 32)) + (((((((int)threadIdx.x) & 15) >> 3) + (((int)threadIdx.x) & 1)) & 1) * 16)), A+((((((int)blockIdx.y) * 8192) + (i_1 * 4096)) + ((((int)threadIdx.x) >> 2) * 128)) + ((((int)threadIdx.x) & 3) * 8)), ((((((int)blockIdx.y) * 64) + (i_1 * 32)) + (((int)threadIdx.x) >> 2)) < m));
  }
  #pragma unroll
  for (int i_2 = 0; i_2 < 2; ++i_2) {
    tl::cp_async_gs<16>(buf_dyn_shmem+((((((i_2 * 2048) + ((((int)threadIdx.x) >> 3) * 128)) + (((((((int)threadIdx.x) & 63) >> 5) + ((((int)threadIdx.x) & 7) >> 2)) & 1) * 64)) + (((((((int)threadIdx.x) & 31) >> 4) + ((((int)threadIdx.x) & 3) >> 1)) & 1) * 32)) + (((((((int)threadIdx.x) & 15) >> 3) + (((int)threadIdx.x) & 1)) & 1) * 16)) + 12288), B+((((i_2 * 2048) + ((((int)threadIdx.x) >> 3) * 128)) + (((int)blockIdx.x) * 64)) + ((((int)threadIdx.x) & 7) * 8)));
  }
  tl::cp_async_commit();
  #pragma unroll
  for (int i_3 = 0; i_3 < 2; ++i_3) {
    tl::cp_async_gs_conditional<16>(buf_dyn_shmem+(((((i_3 * 2048) + ((((int)threadIdx.x) >> 2) * 64)) + (((((((int)threadIdx.x) & 31) >> 4) + ((((int)threadIdx.x) & 3) >> 1)) & 1) * 32)) + (((((((int)threadIdx.x) & 15) >> 3) + (((int)threadIdx.x) & 1)) & 1) * 16)) + 4096), A+(((((((int)blockIdx.y) * 8192) + (i_3 * 4096)) + ((((int)threadIdx.x) >> 2) * 128)) + ((((int)threadIdx.x) & 3) * 8)) + 32), ((((((int)blockIdx.y) * 64) + (i_3 * 32)) + (((int)threadIdx.x) >> 2)) < m));
  }
  #pragma unroll
  for (int i_4 = 0; i_4 < 2; ++i_4) {
    tl::cp_async_gs<16>(buf_dyn_shmem+((((((i_4 * 2048) + ((((int)threadIdx.x) >> 3) * 128)) + (((((((int)threadIdx.x) & 63) >> 5) + ((((int)threadIdx.x) & 7) >> 2)) & 1) * 64)) + (((((((int)threadIdx.x) & 31) >> 4) + ((((int)threadIdx.x) & 3) >> 1)) & 1) * 32)) + (((((((int)threadIdx.x) & 15) >> 3) + (((int)threadIdx.x) & 1)) & 1) * 16)) + 16384), B+(((((i_4 * 2048) + ((((int)threadIdx.x) >> 3) * 128)) + (((int)blockIdx.x) * 64)) + ((((int)threadIdx.x) & 7) * 8)) + 4096));
  }
  tl::cp_async_commit();
  for (int k = 0; k < 2; ++k) {
    __syncthreads();
    #pragma unroll
    for (int i_5 = 0; i_5 < 2; ++i_5) {
      tl::cp_async_gs_conditional<16>(buf_dyn_shmem+(((((((k + 2) % 3) * 4096) + (i_5 * 2048)) + ((((int)threadIdx.x) >> 2) * 64)) + (((((((int)threadIdx.x) & 31) >> 4) + ((((int)threadIdx.x) & 3) >> 1)) & 1) * 32)) + (((((((int)threadIdx.x) & 15) >> 3) + (((int)threadIdx.x) & 1)) & 1) * 16)), A+((((((((int)blockIdx.y) * 8192) + (i_5 * 4096)) + ((((int)threadIdx.x) >> 2) * 128)) + (k * 32)) + ((((int)threadIdx.x) & 3) * 8)) + 64), ((((((int)blockIdx.y) * 64) + (i_5 * 32)) + (((int)threadIdx.x) >> 2)) < m));
    }
    #pragma unroll
    for (int i_6 = 0; i_6 < 2; ++i_6) {
      tl::cp_async_gs<16>(buf_dyn_shmem+(((((((((k + 2) % 3) * 4096) + (i_6 * 2048)) + ((((int)threadIdx.x) >> 3) * 128)) + (((((((int)threadIdx.x) & 63) >> 5) + ((((int)threadIdx.x) & 7) >> 2)) & 1) * 64)) + (((((((int)threadIdx.x) & 31) >> 4) + ((((int)threadIdx.x) & 3) >> 1)) & 1) * 32)) + (((((((int)threadIdx.x) & 15) >> 3) + (((int)threadIdx.x) & 1)) & 1) * 16)) + 12288), B+((((((k * 4096) + (i_6 * 2048)) + ((((int)threadIdx.x) >> 3) * 128)) + (((int)blockIdx.x) * 64)) + ((((int)threadIdx.x) & 7) * 8)) + 8192));
    }
    tl::cp_async_commit();
    tl::cp_async_wait<2>();
    __syncthreads();
    tl::gemm_ss<64, 64, 32, 2, 2, 0, 0>((&(((half_t*)buf_dyn_shmem)[(k * 2048)])), (&(((half_t*)buf_dyn_shmem)[((k * 2048) + 6144)])), (&(C_local[0])));
  }
  tl::cp_async_wait<1>();
  __syncthreads();
  tl::gemm_ss<64, 64, 32, 2, 2, 0, 0>((&(((half_t*)buf_dyn_shmem)[4096])), (&(((half_t*)buf_dyn_shmem)[10240])), (&(C_local[0])));
  tl::cp_async_wait<0>();
  __syncthreads();
  tl::gemm_ss<64, 64, 32, 2, 2, 0, 0>((&(((half_t*)buf_dyn_shmem)[0])), (&(((half_t*)buf_dyn_shmem)[6144])), (&(C_local[0])));
  #pragma unroll
  for (int i_7 = 0; i_7 < 16; ++i_7) {
    if ((((((((int)blockIdx.y) * 64) + (((i_7 & 3) >> 1) * 32)) + (((((int)threadIdx.x) & 63) >> 5) * 16)) + ((i_7 & 1) * 8)) + ((((int)threadIdx.x) & 31) >> 2)) < m) {
      *(uint1*)(C + (((((((((((int)blockIdx.y) * 8192) + (((i_7 & 3) >> 1) * 4096)) + (((((int)threadIdx.x) & 63) >> 5) * 2048)) + ((i_7 & 1) * 1024)) + (((((int)threadIdx.x) & 31) >> 2) * 128)) + (((int)blockIdx.x) * 64)) + ((i_7 >> 2) * 16)) + ((((int)threadIdx.x) >> 6) * 8)) + ((((int)threadIdx.x) & 3) * 2))) = *(uint1*)(C_local + (i_7 * 2));
    }
  }
}

…ability and maintainability

…ayout

LeiWang1999 · 2024-09-26T13:22:24Z

Tail split is required when we apply dynamic symbolic into the last dynamic, otherwise the vector load will be blocked

#include <tl_templates/gemm.h>
#include <tl_templates/copy.h>
#include <tl_templates/reduce.h>
#include <tl_templates/ldsm.h>
#include <tl_templates/threadblock_swizzle.h>

extern "C" __global__ void __launch_bounds__(128) main_kernel(half_t* __restrict__ A, half_t* __restrict__ B, half_t* __restrict__ C, int k, int m, int n) {
  extern __shared__ __align__(1024) uchar buf_dyn_shmem[];
  half_t C_local[32];
  #pragma unroll
  for (int i = 0; i < 16; ++i) {
    *(uint1*)(C_local + (i * 2)) = make_uint1(__pack_half2(half_t(0.000000e+00f), half_t(0.000000e+00f)));
  }
  if (0 < k) {
    #pragma unroll
    for (int i_1 = 0; i_1 < 16; ++i_1) {
      half_t condval;
      if ((((((((int)blockIdx.y) * 64) + (i_1 * 4)) + (((int)threadIdx.x) >> 5)) < m) && ((((int)threadIdx.x) & 31) < k))) {
        condval = A[(((((((int)blockIdx.y) * 64) + (i_1 * 4)) + (((int)threadIdx.x) >> 5)) * k) + (((int)threadIdx.x) & 31))];
      } else {
        condval = half_t(0.000000e+00f);
      }
      ((half_t*)buf_dyn_shmem)[(((((i_1 * 128) + ((((int)threadIdx.x) >> 5) * 32)) + (((((((int)threadIdx.x) & 31) >> 4) + (i_1 & 1)) & 1) * 16)) + ((((((int)threadIdx.x) >> 6) + ((((int)threadIdx.x) & 15) >> 3)) & 1) * 8)) + (((int)threadIdx.x) & 7))] = condval;
    }
  }
  if (0 < k) {
    #pragma unroll
    for (int i_2 = 0; i_2 < 16; ++i_2) {
      half_t condval_1;
      if (((((i_2 * 2) + (((int)threadIdx.x) >> 6)) < k) && (((((int)blockIdx.x) * 64) + (((int)threadIdx.x) & 63)) < n))) {
        condval_1 = B[(((((int)blockIdx.x) * 64) + (((i_2 * 2) + (((int)threadIdx.x) >> 6)) * n)) + (((int)threadIdx.x) & 63))];
      } else {
        condval_1 = half_t(0.000000e+00f);
      }
      ((half_t*)buf_dyn_shmem)[(((((((i_2 * 128) + ((((int)threadIdx.x) >> 6) * 64)) + (((((((int)threadIdx.x) & 63) >> 5) + ((i_2 & 3) >> 1)) & 1) * 32)) + (((((((int)threadIdx.x) & 31) >> 4) + (i_2 & 1)) & 1) * 16)) + ((((((int)threadIdx.x) >> 6) + ((((int)threadIdx.x) & 15) >> 3)) & 1) * 8)) + (((int)threadIdx.x) & 7)) + 6144)] = condval_1;
    }
    tl::cp_async_commit();
  }
  if (32 < k) {
    #pragma unroll
    for (int i_3 = 0; i_3 < 16; ++i_3) {
      half_t condval_2;
      if ((((((((int)blockIdx.y) * 64) + (i_3 * 4)) + (((int)threadIdx.x) >> 5)) < m) && (((((int)threadIdx.x) & 31) + 32) < k))) {
        condval_2 = A[((((((((int)blockIdx.y) * 64) + (i_3 * 4)) + (((int)threadIdx.x) >> 5)) * k) + (((int)threadIdx.x) & 31)) + 32)];
      } else {
        condval_2 = half_t(0.000000e+00f);
      }
      ((half_t*)buf_dyn_shmem)[((((((i_3 * 128) + ((((int)threadIdx.x) >> 5) * 32)) + (((((((int)threadIdx.x) & 31) >> 4) + (i_3 & 1)) & 1) * 16)) + ((((((int)threadIdx.x) >> 6) + ((((int)threadIdx.x) & 15) >> 3)) & 1) * 8)) + (((int)threadIdx.x) & 7)) + 2048)] = condval_2;
    }
  }
  if (32 < k) {
    #pragma unroll
    for (int i_4 = 0; i_4 < 16; ++i_4) {
      half_t condval_3;
      if ((((((i_4 * 2) + (((int)threadIdx.x) >> 6)) + 32) < k) && (((((int)blockIdx.x) * 64) + (((int)threadIdx.x) & 63)) < n))) {
        condval_3 = B[(((((int)blockIdx.x) * 64) + ((((i_4 * 2) + (((int)threadIdx.x) >> 6)) + 32) * n)) + (((int)threadIdx.x) & 63))];
      } else {
        condval_3 = half_t(0.000000e+00f);
      }
      ((half_t*)buf_dyn_shmem)[(((((((i_4 * 128) + ((((int)threadIdx.x) >> 6) * 64)) + (((((((int)threadIdx.x) & 63) >> 5) + ((i_4 & 3) >> 1)) & 1) * 32)) + (((((((int)threadIdx.x) & 31) >> 4) + (i_4 & 1)) & 1) * 16)) + ((((((int)threadIdx.x) >> 6) + ((((int)threadIdx.x) & 15) >> 3)) & 1) * 8)) + (((int)threadIdx.x) & 7)) + 8192)] = condval_3;
    }
    tl::cp_async_commit();
  }
  for (int k_1 = 0; k_1 < (((k + 31) >> 5) - 2); ++k_1) {
    __syncthreads();
    #pragma unroll
    for (int i_5 = 0; i_5 < 16; ++i_5) {
      half_t condval_4;
      if ((((((((int)blockIdx.y) * 64) + (i_5 * 4)) + (((int)threadIdx.x) >> 5)) < m) && ((((k_1 * 32) + (((int)threadIdx.x) & 31)) + 64) < k))) {
        condval_4 = A[((((k_1 * 32) + ((((((int)blockIdx.y) * 64) + (i_5 * 4)) + (((int)threadIdx.x) >> 5)) * k)) + (((int)threadIdx.x) & 31)) + 64)];
      } else {
        condval_4 = half_t(0.000000e+00f);
      }
      ((half_t*)buf_dyn_shmem)[((((((((k_1 + 2) % 3) * 2048) + (i_5 * 128)) + ((((int)threadIdx.x) >> 5) * 32)) + (((((((int)threadIdx.x) & 31) >> 4) + (i_5 & 1)) & 1) * 16)) + ((((((int)threadIdx.x) >> 6) + ((((int)threadIdx.x) & 15) >> 3)) & 1) * 8)) + (((int)threadIdx.x) & 7))] = condval_4;
    }
    #pragma unroll
    for (int i_6 = 0; i_6 < 16; ++i_6) {
      half_t condval_5;
      if (((((((k_1 * 32) + (i_6 * 2)) + (((int)threadIdx.x) >> 6)) + 64) < k) && (((((int)blockIdx.x) * 64) + (((int)threadIdx.x) & 63)) < n))) {
        condval_5 = B[((((((int)blockIdx.x) * 64) + (n * 64)) + ((((k_1 * 32) + (i_6 * 2)) + (((int)threadIdx.x) >> 6)) * n)) + (((int)threadIdx.x) & 63))];
      } else {
        condval_5 = half_t(0.000000e+00f);
      }
      ((half_t*)buf_dyn_shmem)[((((((((((k_1 + 2) % 3) * 2048) + (i_6 * 128)) + ((((int)threadIdx.x) >> 6) * 64)) + (((((((int)threadIdx.x) & 63) >> 5) + ((i_6 & 3) >> 1)) & 1) * 32)) + (((((((int)threadIdx.x) & 31) >> 4) + (i_6 & 1)) & 1) * 16)) + ((((((int)threadIdx.x) >> 6) + ((((int)threadIdx.x) & 15) >> 3)) & 1) * 8)) + (((int)threadIdx.x) & 7)) + 6144)] = condval_5;
    }
    tl::cp_async_commit();
    tl::cp_async_wait<2>();
    __syncthreads();
    tl::gemm_ss<64, 64, 32, 2, 2, 0, 0>((&(((half_t*)buf_dyn_shmem)[((k_1 % 3) * 2048)])), (&(((half_t*)buf_dyn_shmem)[(((k_1 % 3) * 2048) + 6144)])), (&(C_local[0])));
  }
  if (33 <= k) {
    tl::cp_async_wait<1>();
    __syncthreads();
    tl::gemm_ss<64, 64, 32, 2, 2, 0, 0>((&(((half_t*)buf_dyn_shmem)[(((((k + 31) >> 5) + 1) % 3) * 2048)])), (&(((half_t*)buf_dyn_shmem)[((((((k + 31) >> 5) + 1) % 3) * 2048) + 6144)])), (&(C_local[0])));
  }
  if (1 <= k) {
    tl::cp_async_wait<0>();
    __syncthreads();
    tl::gemm_ss<64, 64, 32, 2, 2, 0, 0>((&(((half_t*)buf_dyn_shmem)[(((((k + 31) >> 5) + 2) % 3) * 2048)])), (&(((half_t*)buf_dyn_shmem)[((((((k + 31) >> 5) + 2) % 3) * 2048) + 6144)])), (&(C_local[0])));
  }
  #pragma unroll
  for (int i_7 = 0; i_7 < 32; ++i_7) {
    if (((((((((int)blockIdx.y) * 64) + (((i_7 & 7) >> 2) * 32)) + (((((int)threadIdx.x) & 63) >> 5) * 16)) + (((i_7 & 3) >> 1) * 8)) + ((((int)threadIdx.x) & 31) >> 2)) < m) && ((((((((int)blockIdx.x) * 64) + ((i_7 >> 3) * 16)) + ((((int)threadIdx.x) >> 6) * 8)) + ((((int)threadIdx.x) & 3) * 2)) + (i_7 & 1)) < n)) {
      C[((((((((int)blockIdx.x) * 64) + ((i_7 >> 3) * 16)) + ((((int)threadIdx.x) >> 6) * 8)) + ((((int)threadIdx.x) & 3) * 2)) + ((((((((int)blockIdx.y) * 64) + (((i_7 & 7) >> 2) * 32)) + (((((int)threadIdx.x) & 63) >> 5) * 16)) + (((i_7 & 3) >> 1) * 8)) + ((((int)threadIdx.x) & 31) >> 2)) * n)) + (i_7 & 1))] = C_local[i_7];
    }
  }
}

lead to significant drop in performance.

…ayout

tzj-fxz · 2024-10-15T11:11:24Z

I'm wondering about the meaning of tail split. Is this related to TensorCoreEmitter?

Tail split is required when we apply dynamic symbolic into the last dynamic, otherwise the vector load will be blocked

#include <tl_templates/gemm.h>
#include <tl_templates/copy.h>
#include <tl_templates/reduce.h>
#include <tl_templates/ldsm.h>
#include <tl_templates/threadblock_swizzle.h>

extern "C" __global__ void __launch_bounds__(128) main_kernel(half_t* __restrict__ A, half_t* __restrict__ B, half_t* __restrict__ C, int k, int m, int n) {
  extern __shared__ __align__(1024) uchar buf_dyn_shmem[];
  half_t C_local[32];
  #pragma unroll
  for (int i = 0; i < 16; ++i) {
    *(uint1*)(C_local + (i * 2)) = make_uint1(__pack_half2(half_t(0.000000e+00f), half_t(0.000000e+00f)));
  }
  if (0 < k) {
    #pragma unroll
    for (int i_1 = 0; i_1 < 16; ++i_1) {
      half_t condval;
      if ((((((((int)blockIdx.y) * 64) + (i_1 * 4)) + (((int)threadIdx.x) >> 5)) < m) && ((((int)threadIdx.x) & 31) < k))) {
        condval = A[(((((((int)blockIdx.y) * 64) + (i_1 * 4)) + (((int)threadIdx.x) >> 5)) * k) + (((int)threadIdx.x) & 31))];
      } else {
        condval = half_t(0.000000e+00f);
      }
      ((half_t*)buf_dyn_shmem)[(((((i_1 * 128) + ((((int)threadIdx.x) >> 5) * 32)) + (((((((int)threadIdx.x) & 31) >> 4) + (i_1 & 1)) & 1) * 16)) + ((((((int)threadIdx.x) >> 6) + ((((int)threadIdx.x) & 15) >> 3)) & 1) * 8)) + (((int)threadIdx.x) & 7))] = condval;
    }
  }
  if (0 < k) {
    #pragma unroll
    for (int i_2 = 0; i_2 < 16; ++i_2) {
      half_t condval_1;
      if (((((i_2 * 2) + (((int)threadIdx.x) >> 6)) < k) && (((((int)blockIdx.x) * 64) + (((int)threadIdx.x) & 63)) < n))) {
        condval_1 = B[(((((int)blockIdx.x) * 64) + (((i_2 * 2) + (((int)threadIdx.x) >> 6)) * n)) + (((int)threadIdx.x) & 63))];
      } else {
        condval_1 = half_t(0.000000e+00f);
      }
      ((half_t*)buf_dyn_shmem)[(((((((i_2 * 128) + ((((int)threadIdx.x) >> 6) * 64)) + (((((((int)threadIdx.x) & 63) >> 5) + ((i_2 & 3) >> 1)) & 1) * 32)) + (((((((int)threadIdx.x) & 31) >> 4) + (i_2 & 1)) & 1) * 16)) + ((((((int)threadIdx.x) >> 6) + ((((int)threadIdx.x) & 15) >> 3)) & 1) * 8)) + (((int)threadIdx.x) & 7)) + 6144)] = condval_1;
    }
    tl::cp_async_commit();
  }
  if (32 < k) {
    #pragma unroll
    for (int i_3 = 0; i_3 < 16; ++i_3) {
      half_t condval_2;
      if ((((((((int)blockIdx.y) * 64) + (i_3 * 4)) + (((int)threadIdx.x) >> 5)) < m) && (((((int)threadIdx.x) & 31) + 32) < k))) {
        condval_2 = A[((((((((int)blockIdx.y) * 64) + (i_3 * 4)) + (((int)threadIdx.x) >> 5)) * k) + (((int)threadIdx.x) & 31)) + 32)];
      } else {
        condval_2 = half_t(0.000000e+00f);
      }
      ((half_t*)buf_dyn_shmem)[((((((i_3 * 128) + ((((int)threadIdx.x) >> 5) * 32)) + (((((((int)threadIdx.x) & 31) >> 4) + (i_3 & 1)) & 1) * 16)) + ((((((int)threadIdx.x) >> 6) + ((((int)threadIdx.x) & 15) >> 3)) & 1) * 8)) + (((int)threadIdx.x) & 7)) + 2048)] = condval_2;
    }
  }
  if (32 < k) {
    #pragma unroll
    for (int i_4 = 0; i_4 < 16; ++i_4) {
      half_t condval_3;
      if ((((((i_4 * 2) + (((int)threadIdx.x) >> 6)) + 32) < k) && (((((int)blockIdx.x) * 64) + (((int)threadIdx.x) & 63)) < n))) {
        condval_3 = B[(((((int)blockIdx.x) * 64) + ((((i_4 * 2) + (((int)threadIdx.x) >> 6)) + 32) * n)) + (((int)threadIdx.x) & 63))];
      } else {
        condval_3 = half_t(0.000000e+00f);
      }
      ((half_t*)buf_dyn_shmem)[(((((((i_4 * 128) + ((((int)threadIdx.x) >> 6) * 64)) + (((((((int)threadIdx.x) & 63) >> 5) + ((i_4 & 3) >> 1)) & 1) * 32)) + (((((((int)threadIdx.x) & 31) >> 4) + (i_4 & 1)) & 1) * 16)) + ((((((int)threadIdx.x) >> 6) + ((((int)threadIdx.x) & 15) >> 3)) & 1) * 8)) + (((int)threadIdx.x) & 7)) + 8192)] = condval_3;
    }
    tl::cp_async_commit();
  }
  for (int k_1 = 0; k_1 < (((k + 31) >> 5) - 2); ++k_1) {
    __syncthreads();
    #pragma unroll
    for (int i_5 = 0; i_5 < 16; ++i_5) {
      half_t condval_4;
      if ((((((((int)blockIdx.y) * 64) + (i_5 * 4)) + (((int)threadIdx.x) >> 5)) < m) && ((((k_1 * 32) + (((int)threadIdx.x) & 31)) + 64) < k))) {
        condval_4 = A[((((k_1 * 32) + ((((((int)blockIdx.y) * 64) + (i_5 * 4)) + (((int)threadIdx.x) >> 5)) * k)) + (((int)threadIdx.x) & 31)) + 64)];
      } else {
        condval_4 = half_t(0.000000e+00f);
      }
      ((half_t*)buf_dyn_shmem)[((((((((k_1 + 2) % 3) * 2048) + (i_5 * 128)) + ((((int)threadIdx.x) >> 5) * 32)) + (((((((int)threadIdx.x) & 31) >> 4) + (i_5 & 1)) & 1) * 16)) + ((((((int)threadIdx.x) >> 6) + ((((int)threadIdx.x) & 15) >> 3)) & 1) * 8)) + (((int)threadIdx.x) & 7))] = condval_4;
    }
    #pragma unroll
    for (int i_6 = 0; i_6 < 16; ++i_6) {
      half_t condval_5;
      if (((((((k_1 * 32) + (i_6 * 2)) + (((int)threadIdx.x) >> 6)) + 64) < k) && (((((int)blockIdx.x) * 64) + (((int)threadIdx.x) & 63)) < n))) {
        condval_5 = B[((((((int)blockIdx.x) * 64) + (n * 64)) + ((((k_1 * 32) + (i_6 * 2)) + (((int)threadIdx.x) >> 6)) * n)) + (((int)threadIdx.x) & 63))];
      } else {
        condval_5 = half_t(0.000000e+00f);
      }
      ((half_t*)buf_dyn_shmem)[((((((((((k_1 + 2) % 3) * 2048) + (i_6 * 128)) + ((((int)threadIdx.x) >> 6) * 64)) + (((((((int)threadIdx.x) & 63) >> 5) + ((i_6 & 3) >> 1)) & 1) * 32)) + (((((((int)threadIdx.x) & 31) >> 4) + (i_6 & 1)) & 1) * 16)) + ((((((int)threadIdx.x) >> 6) + ((((int)threadIdx.x) & 15) >> 3)) & 1) * 8)) + (((int)threadIdx.x) & 7)) + 6144)] = condval_5;
    }
    tl::cp_async_commit();
    tl::cp_async_wait<2>();
    __syncthreads();
    tl::gemm_ss<64, 64, 32, 2, 2, 0, 0>((&(((half_t*)buf_dyn_shmem)[((k_1 % 3) * 2048)])), (&(((half_t*)buf_dyn_shmem)[(((k_1 % 3) * 2048) + 6144)])), (&(C_local[0])));
  }
  if (33 <= k) {
    tl::cp_async_wait<1>();
    __syncthreads();
    tl::gemm_ss<64, 64, 32, 2, 2, 0, 0>((&(((half_t*)buf_dyn_shmem)[(((((k + 31) >> 5) + 1) % 3) * 2048)])), (&(((half_t*)buf_dyn_shmem)[((((((k + 31) >> 5) + 1) % 3) * 2048) + 6144)])), (&(C_local[0])));
  }
  if (1 <= k) {
    tl::cp_async_wait<0>();
    __syncthreads();
    tl::gemm_ss<64, 64, 32, 2, 2, 0, 0>((&(((half_t*)buf_dyn_shmem)[(((((k + 31) >> 5) + 2) % 3) * 2048)])), (&(((half_t*)buf_dyn_shmem)[((((((k + 31) >> 5) + 2) % 3) * 2048) + 6144)])), (&(C_local[0])));
  }
  #pragma unroll
  for (int i_7 = 0; i_7 < 32; ++i_7) {
    if (((((((((int)blockIdx.y) * 64) + (((i_7 & 7) >> 2) * 32)) + (((((int)threadIdx.x) & 63) >> 5) * 16)) + (((i_7 & 3) >> 1) * 8)) + ((((int)threadIdx.x) & 31) >> 2)) < m) && ((((((((int)blockIdx.x) * 64) + ((i_7 >> 3) * 16)) + ((((int)threadIdx.x) >> 6) * 8)) + ((((int)threadIdx.x) & 3) * 2)) + (i_7 & 1)) < n)) {
      C[((((((((int)blockIdx.x) * 64) + ((i_7 >> 3) * 16)) + ((((int)threadIdx.x) >> 6) * 8)) + ((((int)threadIdx.x) & 3) * 2)) + ((((((((int)blockIdx.y) * 64) + (((i_7 & 7) >> 2) * 32)) + (((((int)threadIdx.x) & 63) >> 5) * 16)) + (((i_7 & 3) >> 1) * 8)) + ((((int)threadIdx.x) & 31) >> 2)) * n)) + (i_7 & 1))] = C_local[i_7];
    }
  }
}

lead to significant drop in performance.

LeiWang1999 added 30 commits July 5, 2024 08:54

Refactor BatchMatMulEmitter and BatchMatMulSelector for improved read…

d8884e6

…ability and maintainability

Refactor import statements for improved readability and maintainability

fc84173

Refactor import statements for improved readability and maintainability

02f64de

disable failure email for ci

397eee6

remove email notifications.

20f6ad1

move relax pass from testing to mlc_llm

b93c394

Merge branch 'main' of https://github.com/Microsoft/BitBLAS into main

ba6a6df

Refactor scripts with se check_eual_ref_scripts_with_emitter function

257693a

Lint Fix

9bb7f49

Merge branch 'main' of https://github.com/Microsoft/BitBLAS into main

39e7614

Refactor scripts with se check_eual_ref_scripts_with_emitter function

93eb5a5

Merge branch 'main' of https://github.com/Microsoft/BitBLAS into main

72b9740

Merge branch 'main' of https://github.com/Microsoft/BitBLAS into main

5b65979

Merge branch 'main' of https://github.com/Microsoft/BitBLAS into main

d9bd479

buf fix for matrix support

99515cb

lint fix

14406ef

dispatch tensor core based on shapes

d30ec4f

update install commands

fde4029

import scripts

6a04749

Merge branch 'main' of https://github.com/Microsoft/BitBLAS into docs

9d90c40

remove shared mem hack

9ef14e9

revert change for swizzling

63f363e

bug fix

b29c66c

Merge branch 'main' of https://github.com/Microsoft/BitBLAS into docs

4643dd9

tl examples

28beb13

Enhance Swizzle

c0b476f

lint fix

2bf14a8

Merge branch 'main' of https://github.com/Microsoft/BitBLAS into tl-l…

52accbf

…ayout

test fix

19aa985

lint fix

ef8f93c

LeiWang1999 added 24 commits September 6, 2024 06:14

remove debug print

187f448

remove debug print

e1fac68

vectorization init

4f25626

Merge branch 'main' of https://github.com/Microsoft/BitBLAS into tl-l…

2686030

…ayout

lint fix

23a8e8b

prelude update

069ad5e

Merge branch 'main' of https://github.com/Microsoft/BitBLAS into tl-l…

23fe3f8

…ayout

update tvm

9119dd3

bug fix for reduce_k with shared memory

15f4c1f

bug fix

f8518ae

bug fix

ea50147

Enhance Macro Generation

f888af1

Lift Layout to reduce load time

a0bfabf

lint fix

b1fdbcf

Merge branch 'main' of https://github.com/Microsoft/BitBLAS into tl-l…

137b6fd

…ayout

test fix

0acc369

red fix

62de446

Merge branch 'main' of https://github.com/Microsoft/BitBLAS into tl-l…

958f6f2

…ayout

tile lang macro example

f21b25c

tile lang macro example

0fb9535

optimize the marcro generator related items

2c93dad

lint fix

e5bbf81

Tile Lang Test with Dynamic Symbolic

5cfce84

more test case with block level programming

9bafdef

LeiWang1999 mentioned this pull request Sep 26, 2024

[Feature Request]Tail Split Required for Dynamic Symbolic #192

Closed

LeiWang1999 added 2 commits September 26, 2024 13:57

all dynamic test case

15f64c1

Merge branch 'main' of https://github.com/microsoft/BitBLAS into tl-l…

08bc9d4

…ayout

LeiWang1999 merged commit 8d60542 into microsoft:main Sep 26, 2024
4 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[TL] Add example usage/test case for Dynamic Symbolic #191

[TL] Add example usage/test case for Dynamic Symbolic #191

LeiWang1999 commented Sep 26, 2024

LeiWang1999 commented Sep 26, 2024

tzj-fxz commented Oct 15, 2024

[TL] Add example usage/test case for Dynamic Symbolic #191

[TL] Add example usage/test case for Dynamic Symbolic #191

Conversation

LeiWang1999 commented Sep 26, 2024

New Test File:

Example Usage

LeiWang1999 commented Sep 26, 2024

tzj-fxz commented Oct 15, 2024