ROCm
diff --git a/‎third_party/xla/xla/service/gpu/autotuning/gemm_algorithm_picker.cc
+15-1 b/‎third_party/xla/xla/service/gpu/autotuning/gemm_algorithm_picker.cc
+15-1
diff --git a/‎third_party/xla/xla/service/gpu/buffer_comparator.cc
+2-2 b/‎third_party/xla/xla/service/gpu/buffer_comparator.cc
+2-2
diff --git a/‎third_party/xla/xla/service/gpu/buffer_comparator.cu.cc
+33-15 b/‎third_party/xla/xla/service/gpu/buffer_comparator.cu.cc
+33-15
diff --git a/‎third_party/xla/xla/service/gpu/transforms/gemm_rewriter.cc
+162-65 b/‎third_party/xla/xla/service/gpu/transforms/gemm_rewriter.cc
+162-65
@@ -168,8 +168,22 @@ class GemmAutotuner {
     se::DeviceMemoryBase a_scale_buffer, b_scale_buffer, c_scale_buffer,
         d_scale_buffer, d_amax_buffer, bias_buffer, aux_buffer;
 
+    int64_t input_buffer_idx = 2;  // lhs is at 0, rhs is at 1
     if (has_vector_bias) {
-      bias_buffer = rz_buffers_.input_buffers().at(has_matrix_bias ? 3 : 2);
+      if (has_matrix_bias) {
+        input_buffer_idx++;
+      }
+      bias_buffer = rz_buffers_.input_buffers().at(input_buffer_idx++);
+    }
+    // In the current GemmRewriter design for FP8, the a/b scales remain active
+    // even when they are not used. Consequently, we must inform the autotuner
+    // so it can choose algorithms that properly support a/b scales.
+    if (xla::primitive_util::IsF8Type(
+            gemm->operand(0)->shape().element_type()) &&
+        xla::primitive_util::IsF8Type(
+            gemm->operand(1)->shape().element_type())) {
+      a_scale_buffer = rz_buffers_.input_buffers().at(input_buffer_idx++);
+      b_scale_buffer = rz_buffers_.input_buffers().at(input_buffer_idx++);
     }
     if (has_aux_output) {
       aux_buffer = rz_buffers_.output_buffers().at(1);
 
@@ -187,7 +187,7 @@ absl::StatusOr<bool> BufferComparator::CompareEqual(
                           stream,        current,  expected};
 
   switch (shape_.element_type()) {
-#if GOOGLE_CUDA  // not available for ROCm yet..
+#if GOOGLE_CUDA || TENSORFLOW_USE_ROCM && TF_ROCM_VERSION >= 60300
     case xla::F8E4M3FN:
       return CompareEqualParameterized<tsl::float8_e4m3fn, float>(
           "fp8_e4m3fn_comparison", buffer_comparator::fp8_e4m3fn_comparison(),
@@ -196,7 +196,7 @@ absl::StatusOr<bool> BufferComparator::CompareEqual(
       return CompareEqualParameterized<tsl::float8_e5m2, float>(
           "fp8_e5m2_comparison", buffer_comparator::fp8_e5m2_comparison(),
           params);
-#endif  // GOOGLE_CUDA
+#endif  // GOOGLE_CUDA || TENSORFLOW_USE_ROCM && TF_ROCM_VERSION >= 60300
 #if TENSORFLOW_USE_ROCM && TF_ROCM_VERSION >= 60200
     case xla::F8E4M3FNUZ:
       return CompareEqualParameterized<tsl::float8_e4m3fnuz, float>(
 
@@ -54,20 +54,29 @@ __device__ __inline__ float Canonicalize(float input) {
   return isnan(input) ? input : max(-65505.0f, min(input, 65505.0f));
 }
 
+#if GOOGLE_CUDA || TENSORFLOW_USE_ROCM && TF_ROCM_VERSION >= 60300
+__global__ void xla_fp8_e4m3fn_comparison(
 #if GOOGLE_CUDA
-__global__ void xla_fp8_e4m3fn_comparison(__nv_fp8_storage_t* buffer_a,
-                                          __nv_fp8_storage_t* buffer_b,
-                                          float rel_error_threshold,
-                                          uint64_t buffer_length,
-                                          int* mismatch_count) {
+    __nv_fp8_storage_t* buffer_a, __nv_fp8_storage_t* buffer_b,
+#else  // TENSORFLOW_USE_ROCM && TF_ROCM_VERSION >= 60300
+    __hip_fp8_storage_t* buffer_a, __hip_fp8_storage_t* buffer_b,
+#endif
+    float rel_error_threshold, uint64_t buffer_length, int* mismatch_count) {
   int idx = threadIdx.x + blockIdx.x * blockDim.x;
   if (idx >= buffer_length) return;
   // TODO(philipphack): Replace with direct conversion to float when this
   // functionality becomes available.
+#if GOOGLE_CUDA
   float elem_a =
       __half2float(__nv_cvt_fp8_to_halfraw(buffer_a[idx], __NV_E4M3));
   float elem_b =
       __half2float(__nv_cvt_fp8_to_halfraw(buffer_b[idx], __NV_E4M3));
+#else  // TENSORFLOW_USE_ROCM && TF_ROCM_VERSION >= 60300
+  float elem_a =
+      __half2float(__hip_cvt_fp8_to_halfraw(buffer_a[idx], __HIP_E4M3));
+  float elem_b =
+      __half2float(__hip_cvt_fp8_to_halfraw(buffer_b[idx], __HIP_E4M3));
+#endif
   elem_a = Canonicalize(elem_a);
   elem_b = Canonicalize(elem_b);
   if (isnan(elem_a) && isnan(elem_b)) return;
@@ -78,19 +87,28 @@ __global__ void xla_fp8_e4m3fn_comparison(__nv_fp8_storage_t* buffer_a,
     atomicAdd(mismatch_count, 1);
 }
 
-__global__ void xla_fp8_e5m2_comparison(__nv_fp8_storage_t* buffer_a,
-                                        __nv_fp8_storage_t* buffer_b,
-                                        float rel_error_threshold,
-                                        uint64_t buffer_length,
-                                        int* mismatch_count) {
+__global__ void xla_fp8_e5m2_comparison(
+#if GOOGLE_CUDA
+    __nv_fp8_storage_t* buffer_a, __nv_fp8_storage_t* buffer_b,
+#else  // TENSORFLOW_USE_ROCM && TF_ROCM_VERSION >= 60300
+    __hip_fp8_storage_t* buffer_a, __hip_fp8_storage_t* buffer_b,
+#endif
+    float rel_error_threshold, uint64_t buffer_length, int* mismatch_count) {
   int idx = threadIdx.x + blockIdx.x * blockDim.x;
   if (idx >= buffer_length) return;
-  // TODO(philipphack): Replace with direct conversion to float when this
-  // functionality becomes available.
+// TODO(philipphack): Replace with direct conversion to float when this
+// functionality becomes available.
+#if GOOGLE_CUDA
   float elem_a =
       __half2float(__nv_cvt_fp8_to_halfraw(buffer_a[idx], __NV_E5M2));
   float elem_b =
       __half2float(__nv_cvt_fp8_to_halfraw(buffer_b[idx], __NV_E5M2));
+#else  // TENSORFLOW_USE_ROCM && TF_ROCM_VERSION >= 60300
+  float elem_a =
+      __half2float(__hip_cvt_fp8_to_halfraw(buffer_a[idx], __HIP_E5M2));
+  float elem_b =
+      __half2float(__hip_cvt_fp8_to_halfraw(buffer_b[idx], __HIP_E5M2));
+#endif
   elem_a = Canonicalize(elem_a);
   elem_b = Canonicalize(elem_b);
   if (isnan(elem_a) && isnan(elem_b)) return;
@@ -100,7 +118,7 @@ __global__ void xla_fp8_e5m2_comparison(__nv_fp8_storage_t* buffer_a,
   if (rel_error > rel_error_threshold || isnan(rel_error))
     atomicAdd(mismatch_count, 1);
 }
-#endif  // GOOGLE_CUDA
+#endif  // GOOGLE_CUDA || TENSORFLOW_USE_ROCM && TF_ROCM_VERSION >= 60300
 
 #if TENSORFLOW_USE_ROCM && TF_ROCM_VERSION >= 60200
 
@@ -262,15 +280,15 @@ __global__ void xla_int32_comparison(int* buffer_a, int* buffer_b,
 
 }  // namespace
 
-#if GOOGLE_CUDA
+#if GOOGLE_CUDA || TENSORFLOW_USE_ROCM && TF_ROCM_VERSION >= 60300
 void* fp8_e4m3fn_comparison() {
   return reinterpret_cast<void*>(&xla_fp8_e4m3fn_comparison);
 }
 
 void* fp8_e5m2_comparison() {
   return reinterpret_cast<void*>(&xla_fp8_e5m2_comparison);
 }
-#endif
+#endif // GOOGLE_CUDA || TENSORFLOW_USE_ROCM && TF_ROCM_VERSION >= 60300
 
 #if TENSORFLOW_USE_ROCM && TF_ROCM_VERSION >= 60200
 void* fp8_e4m3fnuz_comparison() {
 
@@ -1056,22 +1056,52 @@ class GemmRewriterVisitor : public DfsHloRewriteVisitor {
     }
 
     if (IsRocm(gpu_version_)) {
-      if (a_type == F8E5M2FNUZ && b_type == F8E5M2FNUZ) {
-        VLOG(1)
-            << "Failed to rewrite " << instr->ToShortString()
-            << " into FP8 Custom Call. The element type of one of the operands "
-               "must be F8E4M3FNUZ.";
-        return false;
+      TF_ASSIGN_OR_RETURN(auto rocm_compute_capability,
+                          GetRocmComputeCapability(gpu_version_));
+      if (rocm_compute_capability.has_ocp_fp8_support()) {
+        if (a_type == F8E5M2 && b_type == F8E5M2) {
+          VLOG(1) << "Failed to rewrite " << instr->ToShortString()
+                  << " into FP8 Custom Call. For "
+                  << rocm_compute_capability.gfx_version()
+                  << " arch, one of the input types must be F8E4M3FN, but got "
+                  << PrimitiveType_Name(a_type) << " and "
+                  << PrimitiveType_Name(b_type);
+          return false;
+        }
+        if ((a_type != F8E5M2 && a_type != F8E4M3FN) ||
+            (b_type != F8E5M2 && b_type != F8E4M3FN)) {
+          VLOG(1)
+              << "Failed to rewrite " << instr->ToShortString()
+              << " into FP8 Custom Call. For "
+              << rocm_compute_capability.gfx_version()
+              << " arch, the input types must be F8E5M2 or F8E4M3FN, but got "
+              << PrimitiveType_Name(a_type) << " and "
+              << PrimitiveType_Name(b_type);
+          return false;
+        }
       }
-      if ((a_type != F8E5M2FNUZ && a_type != F8E4M3FNUZ) ||
-          (b_type != F8E5M2FNUZ && b_type != F8E4M3FNUZ)) {
-        VLOG(1)
-            << "Failed to rewrite " << instr->ToShortString()
-            << " into FP8 Custom Call. The input types must be F8E5M2FNUZ or "
-               "F8E4M3FNUZ, but got "
-            << PrimitiveType_Name(a_type) << " and "
-            << PrimitiveType_Name(b_type);
-        return false;
+      if (rocm_compute_capability.has_nanoo_fp8_support()) {
+        if (a_type == F8E5M2FNUZ && b_type == F8E5M2FNUZ) {
+          VLOG(1)
+              << "Failed to rewrite " << instr->ToShortString()
+              << " into FP8 Custom Call. For "
+              << rocm_compute_capability.gfx_version()
+              << " arch, one of the input types must be F8E4M3FNUZ, but got "
+              << PrimitiveType_Name(a_type) << " and "
+              << PrimitiveType_Name(b_type);
+          return false;
+        }
+        if ((a_type != F8E5M2FNUZ && a_type != F8E4M3FNUZ) ||
+            (b_type != F8E5M2FNUZ && b_type != F8E4M3FNUZ)) {
+          VLOG(1) << "Failed to rewrite " << instr->ToShortString()
+                  << " into FP8 Custom Call. For "
+                  << rocm_compute_capability.gfx_version()
+                  << " arch, the input types must be F8E5M2FNUZ or F8E4M3FNUZ, "
+                     "but got "
+                  << PrimitiveType_Name(a_type) << " and "
+                  << PrimitiveType_Name(b_type);
+          return false;
+        }
       }
     }
 
@@ -1112,25 +1142,56 @@ class GemmRewriterVisitor : public DfsHloRewriteVisitor {
     }
 
     PrimitiveType d_type = instr->shape().element_type();
-    bool supported_d_type = (d_type == BF16 || d_type == F16 || d_type == F32);
-    if (IsCuda(gpu_version_) && (d_type == F8E4M3FN || d_type == F8E5M2)) {
-      supported_d_type = true;
-    }
-    if (IsRocm(gpu_version_) &&
-        toolkit_version_ >= stream_executor::SemanticVersion{6, 2, 0} &&
-        (d_type == F8E4M3FNUZ || d_type == F8E5M2FNUZ)) {
-      supported_d_type = true;
+    std::unordered_set<PrimitiveType> supported_d_types = {BF16, F16, F32};
+    if (IsCuda(gpu_version_)) {
+      supported_d_types.insert(F8E4M3FN);
+      supported_d_types.insert(F8E5M2);
+      if (supported_d_types.find(d_type) == supported_d_types.end()) {
+        VLOG(1) << "Failed to rewrite " << instr->ToShortString()
+                << " into FP8 Custom Call. Output type must be "
+                   "F8E4M3FN, F8E5M2, BF16, F16 or F32, but got "
+                << PrimitiveType_Name(d_type);
+        return false;
+      }
     }
-    if (!supported_d_type) {
-      VLOG(1) << "Failed to rewrite " << instr->ToShortString()
-              << " into FP8 Custom Call. Output element type must be "
-              << (IsCuda(gpu_version_) ? "F8E4M3FN, F8E5M2, BF16, F16 or F32. "
-                  : toolkit_version_ >=
-                          stream_executor::SemanticVersion{6, 2, 0}
-                      ? "F8E4M3FNUZ, F8E5M2FNUZ, BF16, F16 or F32. "
-                      : "BF16, F16 or F32. ")
-              << "Actual element type is " << PrimitiveType_Name(d_type);
-      return false;
+    if (IsRocm(gpu_version_)) {
+      if (toolkit_version_ < stream_executor::SemanticVersion{6, 2, 0}) {
+        if (supported_d_types.find(d_type) == supported_d_types.end()) {
+          VLOG(1) << "Failed to rewrite " << instr->ToShortString()
+                  << " into FP8 Custom Call. For ROCm version < 6.2, output "
+                     "type must be BF16, F16 or F32, but got "
+                  << PrimitiveType_Name(d_type);
+          return false;
+        }
+      }
+      TF_ASSIGN_OR_RETURN(auto rocm_compute_capability,
+                          GetRocmComputeCapability(gpu_version_));
+      if (rocm_compute_capability.has_ocp_fp8_support()) {
+        supported_d_types.insert(F8E4M3FN);
+        supported_d_types.insert(F8E5M2);
+        if (supported_d_types.find(d_type) == supported_d_types.end()) {
+          VLOG(1) << "Failed to rewrite " << instr->ToShortString()
+                  << " into FP8 Custom Call. For "
+                  << rocm_compute_capability.gfx_version()
+                  << " arch output type must be F8E4M3FN, F8E5M2, BF16, F16 or "
+                     "F32, but got "
+                  << PrimitiveType_Name(d_type);
+          return false;
+        }
+      }
+      if (rocm_compute_capability.has_nanoo_fp8_support()) {
+        supported_d_types.insert(F8E4M3FNUZ);
+        supported_d_types.insert(F8E5M2FNUZ);
+        if (supported_d_types.find(d_type) == supported_d_types.end()) {
+          VLOG(1) << "Failed to rewrite " << instr->ToShortString()
+                  << " into FP8 Custom Call. For "
+                  << rocm_compute_capability.gfx_version()
+                  << " arch output type must be F8E4M3FNUZ, F8E5M2FNUZ, BF16, "
+                     "F16 or F32, but got "
+                  << PrimitiveType_Name(d_type);
+          return false;
+        }
+      }
     }
 
     // Each operand must have exactly one contracting and one non-contracting
@@ -1322,6 +1383,10 @@ class GemmRewriterVisitor : public DfsHloRewriteVisitor {
                           HloInstruction *d_scale, HloInstruction *clamp_lower,
                           HloInstruction *clamp_upper,
                           bool mult_scale = false) {
+    // TODO: add ROCm support to this fusion pattern
+    if (IsRocm(gpu_version_)) {
+      return absl::OkStatus();
+    }
     // Verify the data types and the operands of clamp.
     if (instr->shape().element_type() == F8E4M3FN) {
       if (!clamp_lower->literal().IsAllFloat(static_cast<float>(
@@ -2073,38 +2138,70 @@ class GemmRewriterVisitor : public DfsHloRewriteVisitor {
       return true;
     }
     const TypeCombinations supported_hipblas_type_combinations = {
-        // FP8 types:
-        {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E4M3FNUZ,
-         PrimitiveType::F8E4M3FNUZ, DataType::kBF16},
-        {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E4M3FNUZ,
-         PrimitiveType::F8E4M3FNUZ, DataType::kF8E4M3FNUZ},
-        {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E4M3FNUZ,
-         PrimitiveType::F8E4M3FNUZ, DataType::kHalf},
-        {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E4M3FNUZ,
-         PrimitiveType::F8E4M3FNUZ, DataType::kFloat},
-
-        {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E4M3FNUZ,
-         PrimitiveType::F8E5M2FNUZ, DataType::kBF16},
-        {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E4M3FNUZ,
-         PrimitiveType::F8E5M2FNUZ, DataType::kF8E4M3FNUZ},
-        {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E4M3FNUZ,
-         PrimitiveType::F8E5M2FNUZ, DataType::kF8E5M2FNUZ},
-        {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E4M3FNUZ,
-         PrimitiveType::F8E5M2FNUZ, DataType::kHalf},
-        {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E4M3FNUZ,
-         PrimitiveType::F8E5M2FNUZ, DataType::kFloat},
-
-        {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E5M2FNUZ,
-         PrimitiveType::F8E4M3FNUZ, DataType::kBF16},
-        {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E5M2FNUZ,
-         PrimitiveType::F8E4M3FNUZ, DataType::kF8E4M3FNUZ},
-        {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E5M2FNUZ,
-         PrimitiveType::F8E4M3FNUZ, DataType::kF8E5M2FNUZ},
-        {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E5M2FNUZ,
-         PrimitiveType::F8E4M3FNUZ, DataType::kHalf},
-        {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E5M2FNUZ,
-         PrimitiveType::F8E4M3FNUZ, DataType::kFloat},
-    };
+      // OCP FP8 types:
+      {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E4M3FN,
+       PrimitiveType::F8E4M3FN, DataType::kBF16},
+      {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E4M3FN,
+       PrimitiveType::F8E4M3FN, DataType::kF8E4M3FN},
+      {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E4M3FN,
+       PrimitiveType::F8E4M3FN, DataType::kHalf},
+      {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E4M3FN,
+       PrimitiveType::F8E4M3FN, DataType::kFloat},
+
+      {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E4M3FN,
+       PrimitiveType::F8E5M2, DataType::kBF16},
+      {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E4M3FN,
+       PrimitiveType::F8E5M2, DataType::kF8E4M3FN},
+      {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E4M3FN,
+       PrimitiveType::F8E5M2, DataType::kF8E5M2},
+      {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E4M3FN,
+       PrimitiveType::F8E5M2, DataType::kHalf},
+      {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E4M3FN,
+       PrimitiveType::F8E5M2, DataType::kFloat},
+
+      {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E5M2,
+       PrimitiveType::F8E4M3FN, DataType::kBF16},
+      {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E5M2,
+       PrimitiveType::F8E4M3FN, DataType::kF8E4M3FN},
+      {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E5M2,
+       PrimitiveType::F8E4M3FN, DataType::kF8E5M2},
+      {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E5M2,
+       PrimitiveType::F8E4M3FN, DataType::kHalf},
+      {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E5M2,
+       PrimitiveType::F8E4M3FN, DataType::kFloat},
+
+      // NANOO FP8 types:
+      {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E4M3FNUZ,
+       PrimitiveType::F8E4M3FNUZ, DataType::kBF16},
+      {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E4M3FNUZ,
+       PrimitiveType::F8E4M3FNUZ, DataType::kF8E4M3FNUZ},
+      {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E4M3FNUZ,
+       PrimitiveType::F8E4M3FNUZ, DataType::kHalf},
+      {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E4M3FNUZ,
+       PrimitiveType::F8E4M3FNUZ, DataType::kFloat},
+
+      {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E4M3FNUZ,
+       PrimitiveType::F8E5M2FNUZ, DataType::kBF16},
+      {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E4M3FNUZ,
+       PrimitiveType::F8E5M2FNUZ, DataType::kF8E4M3FNUZ},
+      {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E4M3FNUZ,
+       PrimitiveType::F8E5M2FNUZ, DataType::kF8E5M2FNUZ},
+      {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E4M3FNUZ,
+       PrimitiveType::F8E5M2FNUZ, DataType::kHalf},
+      {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E4M3FNUZ,
+       PrimitiveType::F8E5M2FNUZ, DataType::kFloat},
+
+      {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E5M2FNUZ,
+       PrimitiveType::F8E4M3FNUZ, DataType::kBF16},
+      {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E5M2FNUZ,
+       PrimitiveType::F8E4M3FNUZ, DataType::kF8E4M3FNUZ},
+      {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E5M2FNUZ,
+       PrimitiveType::F8E4M3FNUZ, DataType::kF8E5M2FNUZ},
+      {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E5M2FNUZ,
+       PrimitiveType::F8E4M3FNUZ, DataType::kHalf},
+      {ComputationType::kF32, DataType::kFloat, PrimitiveType::F8E5M2FNUZ,
+       PrimitiveType::F8E4M3FNUZ, DataType::kFloat},
+  };
     if (IsRocm(gpu_version_) &&
         absl::c_linear_search(supported_hipblas_type_combinations,
                               std::tuple{compute_type, scale_type, a_dtype,