From e7d7daf2dcf2776311d4e98cd7c4d554f537c85f Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Tadej=20Ciglari=C4=8D?= <tadej.ciglaric@codeplay.com>
Date: Mon, 29 Jan 2024 08:54:40 +0100
Subject: [PATCH 1/9] logging

---
 src/portfft/common/global.hpp                 |  24 ++--
 src/portfft/common/logging.hpp                |  91 ++++++++++++++-
 src/portfft/descriptor.hpp                    | 105 +++++++++++++++---
 src/portfft/dispatcher/global_dispatcher.hpp  |  20 ++++
 .../dispatcher/subgroup_dispatcher.hpp        |  10 ++
 .../dispatcher/workgroup_dispatcher.hpp       |  13 ++-
 .../dispatcher/workitem_dispatcher.hpp        |  11 +-
 src/portfft/enums.hpp                         |   6 +-
 src/portfft/utils.hpp                         |   5 +
 9 files changed, 254 insertions(+), 31 deletions(-)
diff --git a/src/portfft/common/global.hpp b/src/portfft/common/global.hpp
index 08b14258..5c7b498c 100644
--- a/src/portfft/common/global.hpp
+++ b/src/portfft/common/global.hpp
@@ -209,10 +209,12 @@ void launch_kernel(sycl::accessor<const Scalar, 1, sycl::access::mode::read>& in
                    const IdxGlobal* inclusive_scan, IdxGlobal n_transforms, Scalar scale_factor,
                    IdxGlobal input_batch_offset, std::pair<sycl::range<1>, sycl::range<1>> launch_params,
                    sycl::handler& cgh) {
+  LOG_FUNCTION_ENTRY();
   auto [global_range, local_range] = launch_params;
 #ifdef PORTFFT_LOG
   sycl::stream s{1024 * 16, 1024, cgh};
 #endif
+  LOG_TRACE("Launching kernel for global implementation with global_size", global_range[0], "local_size", local_range[0]);
   cgh.parallel_for<global_kernel<Scalar, Domain, Dir, memory::BUFFER, LayoutIn, LayoutOut, SubgroupSize>>(
       sycl::nd_range<1>(global_range, local_range),
       [=](sycl::nd_item<1> it, sycl::kernel_handler kh) PORTFFT_REQD_SUBGROUP_SIZE(SubgroupSize) {
@@ -264,10 +266,12 @@ void launch_kernel(const Scalar* input, Scalar* output, const Scalar* input_imag
                    const IdxGlobal* inclusive_scan, IdxGlobal n_transforms, Scalar scale_factor,
                    IdxGlobal input_batch_offset, std::pair<sycl::range<1>, sycl::range<1>> launch_params,
                    sycl::handler& cgh) {
+  LOG_FUNCTION_ENTRY();
 #ifdef PORTFFT_LOG
   sycl::stream s{1024 * 16 * 16, 1024, cgh};
 #endif
   auto [global_range, local_range] = launch_params;
+  LOG_TRACE("Launching kernel for global implementation with global_size", global_range[0], "local_size", local_range[0]);
   cgh.parallel_for<global_kernel<Scalar, Domain, Dir, memory::USM, LayoutIn, LayoutOut, SubgroupSize>>(
       sycl::nd_range<1>(global_range, local_range),
       [=](sycl::nd_item<1> it, sycl::kernel_handler kh) PORTFFT_REQD_SUBGROUP_SIZE(SubgroupSize) {
@@ -304,13 +308,15 @@ static void dispatch_transpose_kernel_impl(const Scalar* input,
                                            sycl::local_accessor<Scalar, 2>& loc, const IdxGlobal* factors,
                                            const IdxGlobal* inner_batches, const IdxGlobal* inclusive_scan,
                                            IdxGlobal output_offset, IdxGlobal lda, IdxGlobal ldb, sycl::handler& cgh) {
+  LOG_FUNCTION_ENTRY();
 #ifdef PORTFFT_LOG
   sycl::stream s{1024 * 16, 1024, cgh};
 #endif
+  std::size_t lda_rounded = detail::round_up_to_multiple(static_cast<std::size_t>(lda), static_cast<std::size_t>(16));
+  std::size_t ldb_rounded = detail::round_up_to_multiple(static_cast<std::size_t>(ldb), static_cast<std::size_t>(16));
+  LOG_TRACE("Launching transpose kernel with global_size", lda_rounded, ldb_rounded, "local_size", 16, 16);
   cgh.parallel_for<detail::transpose_kernel<Scalar, memory::BUFFER>>(
-      sycl::nd_range<2>({detail::round_up_to_multiple(static_cast<std::size_t>(lda), static_cast<std::size_t>(16)),
-                         detail::round_up_to_multiple(static_cast<std::size_t>(ldb), static_cast<std::size_t>(16))},
-                        {16, 16}),
+      sycl::nd_range<2>({lda_rounded, ldb_rounded}, {16, 16}),
       [=](sycl::nd_item<2> it, sycl::kernel_handler kh) {
         detail::global_data_struct global_data{
 #ifdef PORTFFT_LOG
@@ -357,13 +363,15 @@ static void dispatch_transpose_kernel_impl(const Scalar* input, Scalar* output,
                                            const IdxGlobal* factors, const IdxGlobal* inner_batches,
                                            const IdxGlobal* inclusive_scan, IdxGlobal output_offset, IdxGlobal lda,
                                            IdxGlobal ldb, sycl::handler& cgh) {
+  LOG_FUNCTION_ENTRY();
 #ifdef PORTFFT_LOG
   sycl::stream s{1024 * 16 * 16, 1024, cgh};
 #endif
+  std::size_t lda_rounded = detail::round_up_to_multiple(static_cast<std::size_t>(lda), static_cast<std::size_t>(16));
+  std::size_t ldb_rounded = detail::round_up_to_multiple(static_cast<std::size_t>(ldb), static_cast<std::size_t>(16));
+  LOG_TRACE("Launching transpose kernel with global_size", lda_rounded, ldb_rounded, "local_size", 16, 16);
   cgh.parallel_for<detail::transpose_kernel<Scalar, memory::USM>>(
-      sycl::nd_range<2>({detail::round_up_to_multiple(static_cast<std::size_t>(lda), static_cast<std::size_t>(16)),
-                         detail::round_up_to_multiple(static_cast<std::size_t>(ldb), static_cast<std::size_t>(16))},
-                        {16, 16}),
+      sycl::nd_range<2>({lda_rounded, ldb_rounded}, {16, 16}),
       [=](sycl::nd_item<2> it, sycl::kernel_handler kh) {
         detail::global_data_struct global_data{
 #ifdef PORTFFT_LOG
@@ -416,7 +424,8 @@ sycl::event transpose_level(const typename committed_descriptor<Scalar, Domain>:
                             const Scalar* input, TOut output, const IdxGlobal* factors_triple, IdxGlobal committed_size,
                             Idx num_batches_in_l2, IdxGlobal n_transforms, IdxGlobal batch_start, Idx total_factors,
                             IdxGlobal output_offset, sycl::queue& queue, const std::vector<sycl::event>& events,
-                            complex_storage storage) {
+                            complex_storage storage) {     
+  LOG_FUNCTION_ENTRY();
   const IdxGlobal vec_size = storage == complex_storage::INTERLEAVED_COMPLEX ? 2 : 1;
   std::vector<sycl::event> transpose_events;
   IdxGlobal ld_input = kd_struct.factors.at(1);
@@ -490,6 +499,7 @@ std::vector<sycl::event> compute_level(
     IdxGlobal input_global_offset, IdxGlobal committed_size, Idx num_batches_in_l2, IdxGlobal n_transforms,
     IdxGlobal batch_start, Idx factor_id, Idx total_factors, complex_storage storage,
     const std::vector<sycl::event>& dependencies, sycl::queue& queue) {
+  LOG_FUNCTION_ENTRY();
   IdxGlobal local_range = kd_struct.local_range;
   IdxGlobal global_range = kd_struct.global_range;
   IdxGlobal batch_size = kd_struct.batch_size;
diff --git a/src/portfft/common/logging.hpp b/src/portfft/common/logging.hpp
index efef47ce..a677284a 100644
--- a/src/portfft/common/logging.hpp
+++ b/src/portfft/common/logging.hpp
@@ -93,8 +93,7 @@ struct global_data_struct {
   }
 
   /**
-   * Implementation of log_message. End of recursion - logs the messages separated by newlines, adds a newline and
-   * flushes the stream.
+   * Implementation of log_message.
    *
    * @tparam TFirst type of the first object to log
    * @tparam Ts types of the other objects to log
@@ -261,6 +260,71 @@ struct global_data_struct {
   }
 };
 
+/*
+ * Outputs an object to std::cout. Most objects are piped directly to std::cout.
+ *
+ * @tparam T type of the object to output
+ * @param object object to output
+ */
+template <typename T, typename std::enable_if_t<!std::is_enum_v<T>>* = nullptr>
+__attribute__((always_inline)) inline void output(T object) {
+  std::cout << object;
+}
+
+/*
+ * Outputs an object to std::cout. Enums are first cast to underlying type.
+ *
+ * @tparam T type of the object to output
+ * @param object object to output
+ */
+template <typename T, typename std::enable_if_t<std::is_enum_v<T>>* = nullptr>
+__attribute__((always_inline)) inline void output(T object) {
+  output(static_cast<std::underlying_type_t<T>>(object));
+}
+
+/*
+ * Outputs an object to std::cout. A `std::vector` is output by elements.
+ *
+ * @tparam T type of the object to output
+ * @param object object to output
+ */
+template <typename T>
+__attribute__((always_inline)) inline void output(const std::vector<T>& object) {
+  std::cout << "(";
+  for(const T& element : object){
+    output(element);
+    std::cout << ", ";
+  }
+  std::cout << ")";
+}
+
+/*
+ * Logs a message. End of recursion - logs the message, adds a newline and flushes the stream.
+ *
+ * @tparam T type of the object to log
+ * @param message message to log
+ */
+template <typename T>
+__attribute__((always_inline)) inline void log_message_impl(T message) {
+  output(message);
+  std::cout << std::endl;
+}
+
+/**
+ * Logs a message.
+ *
+ * @tparam TFirst type of the first object to log
+ * @tparam Ts types of the other objects to log
+ * @param message the first message to log
+ * @param other_messages other messages to log
+ */
+template <typename TFirst, typename... Ts>
+__attribute__((always_inline)) inline void log_message_impl(TFirst message, Ts... other_messages) {
+  output(message);
+  std::cout << " ";
+  log_message_impl(other_messages...);
+}
+
 /**
  * Prints the message and dumps data from host to standard output
  *
@@ -302,6 +366,29 @@ PORTFFT_INLINE void dump_device([[maybe_unused]] sycl::queue& q, [[maybe_unused]
 #endif
 }
 
+  /**
+   * Logs a message. Can log multiple objects/strings. They will be separated by spaces.
+   *
+   * Does nothing if logging of traces is not enabled (PORTFFT_LOG_TRACE is not defined).
+   *
+   * @tparam Ts types of the objects to log
+   * @param messages objects to log
+   */
+  template <typename... Ts>
+  PORTFFT_INLINE void log_message([[maybe_unused]] Ts... messages) {
+#ifdef PORTFFT_LOG_TRACE
+    log_message_impl(messages...);
+#endif
+  }
+
+#define LOGGING_LOCATION_INFORMATION __FILE__ ", line", __LINE__, "- in", __FUNCTION__, ":"
+
+#define LOG_FUNCTION_ENTRY() \
+  detail::log_message(LOGGING_LOCATION_INFORMATION, "entered")
+
+#define LOG_TRACE(...) \
+  detail::log_message(LOGGING_LOCATION_INFORMATION, __VA_ARGS__)
+
 };  // namespace portfft::detail
 
 #endif
diff --git a/src/portfft/descriptor.hpp b/src/portfft/descriptor.hpp
index f83aef6a..d8b77585 100644
--- a/src/portfft/descriptor.hpp
+++ b/src/portfft/descriptor.hpp
@@ -76,6 +76,7 @@ class transpose_kernel;
  * @param lengths the dimensions of the dft
  */
 inline std::vector<std::size_t> get_default_strides(const std::vector<std::size_t>& lengths) {
+  LOG_FUNCTION_ENTRY();
   std::vector<std::size_t> strides(lengths.size());
   std::size_t total_size = 1;
   for (std::size_t i_plus1 = lengths.size(); i_plus1 > 0; i_plus1--) {
@@ -83,6 +84,7 @@ inline std::vector<std::size_t> get_default_strides(const std::vector<std::size_
     strides[i] = total_size;
     total_size *= lengths[i];
   }
+  LOG_TRACE("Default strides:", strides);
   return strides;
 }
 
@@ -312,6 +314,7 @@ class committed_descriptor {
   template <Idx SubgroupSize>
   std::tuple<detail::level, std::vector<std::tuple<detail::level, std::vector<sycl::kernel_id>, std::vector<Idx>>>>
   prepare_implementation(std::size_t kernel_num) {
+    LOG_FUNCTION_ENTRY();
     // TODO: check and support all the parameter values
     if constexpr (Domain != domain::COMPLEX) {
       throw unsupported_configuration("portFFT only supports complex to complex transforms");
@@ -322,6 +325,7 @@ class committed_descriptor {
     IdxGlobal fft_size = static_cast<IdxGlobal>(params.lengths[kernel_num]);
     if (detail::fits_in_wi<Scalar>(fft_size)) {
       ids = detail::get_ids<detail::workitem_kernel, Scalar, Domain, SubgroupSize>();
+      LOG_TRACE("Prepared workitem impl for size: ", fft_size);
       return {detail::level::WORKITEM, {{detail::level::WORKITEM, ids, factors}}};
     }
     if (detail::fits_in_sg<Scalar>(fft_size, SubgroupSize)) {
@@ -332,6 +336,7 @@ class committed_descriptor {
       factors.push_back(factor_wi);
       factors.push_back(factor_sg);
       ids = detail::get_ids<detail::subgroup_kernel, Scalar, Domain, SubgroupSize>();
+      LOG_TRACE("Prepared subgroup impl with factor_wi:", factor_wi, "and factor_sg:", factor_sg);
       return {detail::level::SUBGROUP, {{detail::level::SUBGROUP, ids, factors}}};
     }
     IdxGlobal n_idx_global = detail::factorize(fft_size);
@@ -362,9 +367,11 @@ class committed_descriptor {
         // This factorization of N and M is duplicated in the dispatch logic on the device.
         // The CT and spec constant factors should match.
         ids = detail::get_ids<detail::workgroup_kernel, Scalar, Domain, SubgroupSize>();
+        LOG_TRACE("Prepared workgroup impl with factor_wi_n:", factor_wi_n, " factor_sg_n:", factor_sg_n, " factor_wi_m:", factor_wi_m, " factor_sg_m:", factor_sg_m);
         return {detail::level::WORKGROUP, {{detail::level::WORKGROUP, ids, factors}}};
       }
     }
+    LOG_TRACE("Preparing global impl");
     std::vector<std::tuple<detail::level, std::vector<sycl::kernel_id>, std::vector<Idx>>> param_vec;
     auto check_and_select_target_level = [&](IdxGlobal factor_size, bool batch_interleaved_layout = true) -> bool {
       if (detail::fits_in_wi<Scalar>(factor_size)) {
@@ -372,7 +379,7 @@ class committed_descriptor {
         param_vec.emplace_back(detail::level::WORKITEM,
                                detail::get_ids<detail::global_kernel, Scalar, Domain, SubgroupSize>(),
                                std::vector<Idx>{static_cast<Idx>(factor_size)});
-
+        LOG_TRACE("Workitem kernel for factor:", factor_size);
         return true;
       }
       bool fits_in_local_memory_subgroup = [&]() {
@@ -400,11 +407,12 @@ class committed_descriptor {
       }();
       if (detail::fits_in_sg<Scalar>(factor_size, SubgroupSize) && fits_in_local_memory_subgroup &&
           !PORTFFT_SLOW_SG_SHUFFLES) {
+        Idx factor_sg = detail::factorize_sg(static_cast<Idx>(factor_size), SubgroupSize);
+        Idx factor_wi = static_cast<Idx>(factor_size) / factor_sg;
+        LOG_TRACE("Subgroup kernel for factor:", factor_size, "with factor_wi:", factor_wi, "and factor_sg:", factor_sg);
         param_vec.emplace_back(detail::level::SUBGROUP,
                                detail::get_ids<detail::global_kernel, Scalar, Domain, SubgroupSize>(),
-                               std::vector<Idx>{detail::factorize_sg(static_cast<Idx>(factor_size), SubgroupSize),
-                                                static_cast<Idx>(factor_size) /
-                                                    detail::factorize_sg(static_cast<Idx>(factor_size), SubgroupSize)});
+                               std::vector<Idx>{factor_sg, factor_wi});
         return true;
       }
       return false;
@@ -444,13 +452,21 @@ class committed_descriptor {
                           detail::elementwise_multiply multiply_on_load, detail::elementwise_multiply multiply_on_store,
                           detail::apply_scale_factor scale_factor_applied, detail::level level, Idx factor_num = 0,
                           Idx num_factors = 0) {
+    LOG_FUNCTION_ENTRY();
     const Idx length_idx = static_cast<Idx>(length);
     // These spec constants are used in all implementations, so we set them here
+    LOG_TRACE("Setting specialization constants:");
+    LOG_TRACE("SpecConstComplexStorage:", params.complex_storage);
     in_bundle.template set_specialization_constant<detail::SpecConstComplexStorage>(params.complex_storage);
+    LOG_TRACE("SpecConstNumRealsPerFFT:", 2 * length_idx);
     in_bundle.template set_specialization_constant<detail::SpecConstNumRealsPerFFT>(2 * length_idx);
+    LOG_TRACE("SpecConstWIScratchSize:", 2 * detail::wi_temps(length_idx));
     in_bundle.template set_specialization_constant<detail::SpecConstWIScratchSize>(2 * detail::wi_temps(length_idx));
+    LOG_TRACE("SpecConstMultiplyOnLoad:", multiply_on_load);
     in_bundle.template set_specialization_constant<detail::SpecConstMultiplyOnLoad>(multiply_on_load);
+    LOG_TRACE("SpecConstMultiplyOnStore:", multiply_on_store);
     in_bundle.template set_specialization_constant<detail::SpecConstMultiplyOnStore>(multiply_on_store);
+    LOG_TRACE("SpecConstApplyScaleFactor:", scale_factor_applied);
     in_bundle.template set_specialization_constant<detail::SpecConstApplyScaleFactor>(scale_factor_applied);
     dispatch<set_spec_constants_struct>(top_level, in_bundle, length, factors, level, factor_num, num_factors);
   }
@@ -481,6 +497,7 @@ class committed_descriptor {
   template <detail::layout LayoutIn>
   std::size_t num_scalars_in_local_mem(detail::level level, std::size_t length, Idx used_sg_size,
                                        const std::vector<Idx>& factors, Idx& num_sgs_per_wg) {
+    LOG_FUNCTION_ENTRY();
     return dispatch<num_scalars_in_local_mem_struct, LayoutIn>(level, length, used_sg_size, factors, num_sgs_per_wg);
   }
 
@@ -502,6 +519,7 @@ class committed_descriptor {
    * @return Scalar* USM pointer to the twiddle factors
    */
   Scalar* calculate_twiddles(dimension_struct& dimension_data) {
+    LOG_FUNCTION_ENTRY();
     return dispatch<calculate_twiddles_struct>(dimension_data.level, dimension_data);
   }
 
@@ -516,6 +534,7 @@ class committed_descriptor {
    */
   template <Idx SubgroupSize, Idx... OtherSGSizes>
   dimension_struct build_w_spec_const(std::size_t kernel_num) {
+    LOG_FUNCTION_ENTRY();
     if (std::count(supported_sg_sizes.begin(), supported_sg_sizes.end(), SubgroupSize)) {
       auto [top_level, prepared_vec] = prepare_implementation<SubgroupSize>(kernel_num);
       bool is_compatible = true;
@@ -579,6 +598,7 @@ class committed_descriptor {
    * @param num_global_level_dimensions number of global level dimensions in the committed size
    */
   void allocate_scratch_and_precompute_scan(Idx num_global_level_dimensions) {
+    LOG_FUNCTION_ENTRY();
     std::size_t n_kernels = params.lengths.size();
     if (num_global_level_dimensions == 1) {
       std::size_t global_dimension = 0;
@@ -602,7 +622,7 @@ class committed_descriptor {
       }
       dimensions.at(global_dimension).num_factors = static_cast<Idx>(factors.size());
       std::size_t cache_space_left_for_batches = static_cast<std::size_t>(llc_size) - cache_required_for_twiddles;
-      // TODO: In case of mutli-dim (single dim global sized), this should be batches corresposding to that dim
+      // TODO: In case of mutli-dim (single dim global sized), this should be batches corresponding to that dim
       dimensions.at(global_dimension).num_batches_in_l2 = static_cast<Idx>(std::min(
           static_cast<std::size_t>(PORTFFT_MAX_CONCURRENT_KERNELS),
           std::min(params.number_of_transforms,
@@ -610,14 +630,9 @@ class committed_descriptor {
                                                 (2 * dimensions.at(global_dimension).length * sizeof(Scalar))))));
       scratch_space_required = 2 * dimensions.at(global_dimension).length *
                                static_cast<std::size_t>(dimensions.at(global_dimension).num_batches_in_l2);
-      scratch_ptr_1 =
-          detail::make_shared<Scalar>(2 * dimensions.at(global_dimension).length *
-                                          static_cast<std::size_t>(dimensions.at(global_dimension).num_batches_in_l2),
-                                      queue);
-      scratch_ptr_2 =
-          detail::make_shared<Scalar>(2 * dimensions.at(global_dimension).length *
-                                          static_cast<std::size_t>(dimensions.at(global_dimension).num_batches_in_l2),
-                                      queue);
+      LOG_TRACE("Allocating 2 scratch arrays of size", scratch_space_required, "scalars in global memory");
+      scratch_ptr_1 = detail::make_shared<Scalar>(scratch_space_required, queue);
+      scratch_ptr_2 = detail::make_shared<Scalar>(scratch_space_required, queue);
       inclusive_scan.push_back(factors.at(0));
       for (std::size_t i = 1; i < factors.size(); i++) {
         inclusive_scan.push_back(inclusive_scan.at(i - 1) * factors.at(i));
@@ -637,8 +652,12 @@ class committed_descriptor {
         std::vector<sycl::kernel_id> ids;
         auto in_bundle = sycl::get_kernel_bundle<sycl::bundle_state::input>(queue.get_context(),
                                                                             detail::get_transpose_kernel_ids<Scalar>());
+        LOG_TRACE("Setting specialization constants for transpose kernel", i);
+        LOG_TRACE("SpecConstComplexStorage:", params.complex_storage);
         in_bundle.template set_specialization_constant<detail::SpecConstComplexStorage>(params.complex_storage);
+        LOG_TRACE("GlobalSpecConstLevelNum:", i);
         in_bundle.template set_specialization_constant<detail::GlobalSpecConstLevelNum>(static_cast<Idx>(i));
+        LOG_TRACE("GlobalSpecConstNumFactors:", factors.size());
         in_bundle.template set_specialization_constant<detail::GlobalSpecConstNumFactors>(
             static_cast<Idx>(factors.size()));
         dimensions.at(global_dimension)
@@ -690,7 +709,10 @@ class committed_descriptor {
           for (std::size_t j = 0; j < num_transposes_required; j++) {
             auto in_bundle = sycl::get_kernel_bundle<sycl::bundle_state::input>(
                 queue.get_context(), detail::get_transpose_kernel_ids<Scalar>());
+            LOG_TRACE("Setting specilization constants for transpose kernel", j);
+            LOG_TRACE("GlobalSpecConstLevelNum:", i);
             in_bundle.template set_specialization_constant<detail::GlobalSpecConstLevelNum>(static_cast<Idx>(i));
+            LOG_TRACE("GlobalSpecConstNumFactors:", factors.size());
             in_bundle.template set_specialization_constant<detail::GlobalSpecConstNumFactors>(
                 static_cast<Idx>(factors.size()));
             dimensions.at(i).kernels.emplace_back(
@@ -719,8 +741,14 @@ class committed_descriptor {
         supported_sg_sizes(dev.get_info<sycl::info::device::sub_group_sizes>()),
         local_memory_size(static_cast<Idx>(queue.get_device().get_info<sycl::info::device::local_mem_size>())),
         llc_size(static_cast<IdxGlobal>(queue.get_device().get_info<sycl::info::device::global_mem_cache_size>())) {
-    // check it's suitable to run
+    LOG_FUNCTION_ENTRY();
+    LOG_TRACE("Device info:");
+    LOG_TRACE("n_compute_units:", n_compute_units);
+    LOG_TRACE("supported_sg_sizes:", supported_sg_sizes);
+    LOG_TRACE("local_memory_size:", local_memory_size);
+    LOG_TRACE("llc_size:", llc_size);
 
+    // check it's suitable to run
     const auto forward_layout = detail::get_layout(params, direction::FORWARD);
     const auto backward_layout = detail::get_layout(params, direction::BACKWARD);
     if (params.lengths.size() > 1) {
@@ -745,6 +773,7 @@ class committed_descriptor {
       dimensions.back().kernels.at(0).twiddles_forward =
           std::shared_ptr<Scalar>(calculate_twiddles(dimensions.back()), [queue](Scalar* ptr) {
             if (ptr != nullptr) {
+              LOG_TRACE("Freeing the array for twiddle factors");
               sycl::free(ptr, queue);
             }
           });
@@ -778,6 +807,7 @@ class committed_descriptor {
    * @param desc committed_descriptor of which the copy is to be made
    */
   void create_copy(const committed_descriptor<Scalar, Domain>& desc) {
+    LOG_FUNCTION_ENTRY();
 #define PORTFFT_COPY(x) this->x = desc.x;
     PORTFFT_COPY(params)
     PORTFFT_COPY(queue)
@@ -799,6 +829,7 @@ class committed_descriptor {
       }
     }
     if (is_scratch_required) {
+      LOG_TRACE("Allocating 2 scratch arrays of size", desc.scratch_space_required, "Scalars in global memory");
       this->scratch_ptr_1 =
           detail::make_shared<Scalar>(static_cast<std::size_t>(desc.scratch_space_required), this->queue);
       this->scratch_ptr_2 =
@@ -807,13 +838,19 @@ class committed_descriptor {
   }
 
  public:
-  committed_descriptor(const committed_descriptor& desc) : params(desc.params) { create_copy(desc); }
+  committed_descriptor(const committed_descriptor& desc) : params(desc.params) {
+    LOG_FUNCTION_ENTRY();
+    create_copy(desc);
+  }
+
   committed_descriptor& operator=(const committed_descriptor& desc) {
+    LOG_FUNCTION_ENTRY();
     if (this != &desc) {
       create_copy(desc);
     }
     return *this;
   }
+
   static_assert(std::is_same_v<Scalar, float> || std::is_same_v<Scalar, double>,
                 "Scalar must be either float or double!");
   /**
@@ -828,7 +865,10 @@ class committed_descriptor {
   /**
    * Destructor
    */
-  ~committed_descriptor() { queue.wait(); }
+  ~committed_descriptor() {
+    LOG_FUNCTION_ENTRY();
+    queue.wait();
+  }
 
   // default construction is not appropriate
   committed_descriptor() = delete;
@@ -839,6 +879,7 @@ class committed_descriptor {
    * @param inout buffer containing input and output data
    */
   void compute_forward(sycl::buffer<complex_type, 1>& inout) {
+    LOG_FUNCTION_ENTRY();
     // For now we can just call out-of-place implementation.
     // This might need to be changed once we implement support for large sizes that work in global memory.
     compute_forward(inout, inout);
@@ -851,6 +892,7 @@ class committed_descriptor {
    * @param inout_imag buffer containing imaginary part of the input and output data
    */
   void compute_forward(sycl::buffer<scalar_type, 1>& inout_real, sycl::buffer<scalar_type, 1>& inout_imag) {
+    LOG_FUNCTION_ENTRY();
     // For now we can just call out-of-place implementation.
     // This might need to be changed once we implement support for large sizes that work in global memory.
     compute_forward(inout_real, inout_imag, inout_real, inout_imag);
@@ -862,6 +904,7 @@ class committed_descriptor {
    * @param inout buffer containing input and output data
    */
   void compute_backward(sycl::buffer<complex_type, 1>& inout) {
+    LOG_FUNCTION_ENTRY();
     // For now we can just call out-of-place implementation.
     // This might need to be changed once we implement support for large sizes that work in global memory.
     compute_backward(inout, inout);
@@ -874,6 +917,7 @@ class committed_descriptor {
    * @param inout_imag buffer containing imaginary part of the input and output data
    */
   void compute_backward(sycl::buffer<scalar_type, 1>& inout_real, sycl::buffer<scalar_type, 1>& inout_imag) {
+    LOG_FUNCTION_ENTRY();
     // For now we can just call out-of-place implementation.
     // This might need to be changed once we implement support for large sizes that work in global memory.
     compute_backward(inout_real, inout_imag, inout_real, inout_imag);
@@ -886,6 +930,7 @@ class committed_descriptor {
    * @param out buffer containing output data
    */
   void compute_forward(const sycl::buffer<complex_type, 1>& in, sycl::buffer<complex_type, 1>& out) {
+    LOG_FUNCTION_ENTRY();
     dispatch_direction<direction::FORWARD>(in, out, in, out, complex_storage::INTERLEAVED_COMPLEX);
   }
 
@@ -899,6 +944,7 @@ class committed_descriptor {
    */
   void compute_forward(const sycl::buffer<scalar_type, 1>& in_real, const sycl::buffer<scalar_type, 1>& in_imag,
                        sycl::buffer<scalar_type, 1>& out_real, sycl::buffer<scalar_type, 1>& out_imag) {
+    LOG_FUNCTION_ENTRY();
     dispatch_direction<direction::FORWARD>(in_real, out_real, in_imag, out_imag, complex_storage::SPLIT_COMPLEX);
   }
 
@@ -909,6 +955,7 @@ class committed_descriptor {
    * @param out buffer containing output data
    */
   void compute_forward(const sycl::buffer<Scalar, 1>& /*in*/, sycl::buffer<complex_type, 1>& /*out*/) {
+    LOG_FUNCTION_ENTRY();
     throw unsupported_configuration("Real to complex FFTs not yet implemented.");
   }
 
@@ -919,6 +966,7 @@ class committed_descriptor {
    * @param out buffer containing output data
    */
   void compute_backward(const sycl::buffer<complex_type, 1>& in, sycl::buffer<complex_type, 1>& out) {
+    LOG_FUNCTION_ENTRY();
     dispatch_direction<direction::BACKWARD>(in, out, in, out, complex_storage::INTERLEAVED_COMPLEX);
   }
 
@@ -932,6 +980,7 @@ class committed_descriptor {
    */
   void compute_backward(const sycl::buffer<scalar_type, 1>& in_real, const sycl::buffer<scalar_type, 1>& in_imag,
                         sycl::buffer<scalar_type, 1>& out_real, sycl::buffer<scalar_type, 1>& out_imag) {
+    LOG_FUNCTION_ENTRY();
     dispatch_direction<direction::BACKWARD>(in_real, out_real, in_imag, out_imag, complex_storage::SPLIT_COMPLEX);
   }
 
@@ -943,6 +992,7 @@ class committed_descriptor {
    * @return sycl::event associated with this computation
    */
   sycl::event compute_forward(complex_type* inout, const std::vector<sycl::event>& dependencies = {}) {
+    LOG_FUNCTION_ENTRY();
     // For now we can just call out-of-place implementation.
     // This might need to be changed once we implement support for large sizes that work in global memory.
     return compute_forward(inout, inout, dependencies);
@@ -958,6 +1008,7 @@ class committed_descriptor {
    */
   sycl::event compute_forward(scalar_type* inout_real, scalar_type* inout_imag,
                               const std::vector<sycl::event>& dependencies = {}) {
+    LOG_FUNCTION_ENTRY();
     // For now we can just call out-of-place implementation.
     // This might need to be changed once we implement support for large sizes that work in global memory.
     return compute_forward(inout_real, inout_imag, inout_real, inout_imag, dependencies);
@@ -971,6 +1022,7 @@ class committed_descriptor {
    * @return sycl::event associated with this computation
    */
   sycl::event compute_forward(Scalar* inout, const std::vector<sycl::event>& dependencies = {}) {
+    LOG_FUNCTION_ENTRY();
     // For now we can just call out-of-place implementation.
     // This might need to be changed once we implement support for large sizes that work in global memory.
     return compute_forward(inout, reinterpret_cast<complex_type*>(inout), dependencies);
@@ -984,6 +1036,7 @@ class committed_descriptor {
    * @return sycl::event associated with this computation
    */
   sycl::event compute_backward(complex_type* inout, const std::vector<sycl::event>& dependencies = {}) {
+    LOG_FUNCTION_ENTRY();
     return compute_backward(inout, inout, dependencies);
   }
 
@@ -997,6 +1050,7 @@ class committed_descriptor {
    */
   sycl::event compute_backward(scalar_type* inout_real, scalar_type* inout_imag,
                                const std::vector<sycl::event>& dependencies = {}) {
+    LOG_FUNCTION_ENTRY();
     return compute_backward(inout_real, inout_imag, inout_real, inout_imag, dependencies);
   }
 
@@ -1010,6 +1064,7 @@ class committed_descriptor {
    */
   sycl::event compute_forward(const complex_type* in, complex_type* out,
                               const std::vector<sycl::event>& dependencies = {}) {
+    LOG_FUNCTION_ENTRY();
     return dispatch_direction<direction::FORWARD>(in, out, in, out, complex_storage::INTERLEAVED_COMPLEX, dependencies);
   }
 
@@ -1025,6 +1080,7 @@ class committed_descriptor {
    */
   sycl::event compute_forward(const scalar_type* in_real, const scalar_type* in_imag, scalar_type* out_real,
                               scalar_type* out_imag, const std::vector<sycl::event>& dependencies = {}) {
+    LOG_FUNCTION_ENTRY();
     return dispatch_direction<direction::FORWARD>(in_real, out_real, in_imag, out_imag, complex_storage::SPLIT_COMPLEX,
                                                   dependencies);
   }
@@ -1039,6 +1095,7 @@ class committed_descriptor {
    */
   sycl::event compute_forward(const Scalar* /*in*/, complex_type* /*out*/,
                               const std::vector<sycl::event>& /*dependencies*/ = {}) {
+    LOG_FUNCTION_ENTRY();
     throw unsupported_configuration("Real to complex FFTs not yet implemented.");
     return {};
   }
@@ -1053,6 +1110,7 @@ class committed_descriptor {
    */
   sycl::event compute_backward(const complex_type* in, complex_type* out,
                                const std::vector<sycl::event>& dependencies = {}) {
+    LOG_FUNCTION_ENTRY();
     return dispatch_direction<direction::BACKWARD>(in, out, in, out, complex_storage::INTERLEAVED_COMPLEX,
                                                    dependencies);
   }
@@ -1069,6 +1127,7 @@ class committed_descriptor {
    */
   sycl::event compute_backward(const scalar_type* in_real, const scalar_type* in_imag, scalar_type* out_real,
                                scalar_type* out_imag, const std::vector<sycl::event>& dependencies = {}) {
+    LOG_FUNCTION_ENTRY();
     return dispatch_direction<direction::BACKWARD>(in_real, out_real, in_imag, out_imag, complex_storage::SPLIT_COMPLEX,
                                                    dependencies);
   }
@@ -1095,6 +1154,7 @@ class committed_descriptor {
   template <direction Dir, typename TIn, typename TOut>
   sycl::event dispatch_direction(const TIn& in, TOut& out, const TIn& in_imag, TOut& out_imag,
                                  complex_storage used_storage, const std::vector<sycl::event>& dependencies = {}) {
+    LOG_FUNCTION_ENTRY();
 #ifndef PORTFFT_ENABLE_BUFFER_BUILDS
     if constexpr (!std::is_pointer_v<TIn> || !std::is_pointer_v<TOut>) {
       throw invalid_configuration("Buffer interface can not be called when buffer builds are disabled.");
@@ -1153,6 +1213,7 @@ class committed_descriptor {
                                   const std::vector<std::size_t>& output_strides, std::size_t input_distance,
                                   std::size_t output_distance, std::size_t input_offset, std::size_t output_offset,
                                   Scalar scale_factor) {
+    LOG_FUNCTION_ENTRY();
     using TOutConst = std::conditional_t<std::is_pointer_v<TOut>, const std::remove_pointer_t<TOut>*, const TOut>;
     std::size_t n_dimensions = params.lengths.size();
     std::size_t total_size = params.get_flattened_length();
@@ -1182,6 +1243,7 @@ class committed_descriptor {
       output_distance = params.lengths.back();
     }
 
+    LOG_TRACE("Dispatching the kernel for the last dimension");
     sycl::event previous_event = dispatch_kernel_1d<Dir>(
         in, out, in_imag, out_imag, dependencies, params.number_of_transforms * outer_size, input_stride_0,
         output_stride_0, input_distance, output_distance, input_offset, output_offset, scale_factor, dimensions.back());
@@ -1196,6 +1258,7 @@ class committed_descriptor {
       // TODO do everything from the next loop in a single kernel once we support more than one distance in the
       // kernels.
       std::size_t stride_between_kernels = inner_size * params.lengths[i];
+      LOG_TRACE("Dispatching the kernels for the dimension", i);
       for (std::size_t j = 0; j < params.number_of_transforms * outer_size; j++) {
         sycl::event e = dispatch_kernel_1d<Dir, TOutConst, TOut>(
             out, out, out_imag, out_imag, previous_events, inner_size, inner_size, inner_size, 1, 1,
@@ -1242,6 +1305,7 @@ class committed_descriptor {
                                  std::size_t input_stride, std::size_t output_stride, std::size_t input_distance,
                                  std::size_t output_distance, std::size_t input_offset, std::size_t output_offset,
                                  Scalar scale_factor, dimension_struct& dimension_data) {
+    LOG_FUNCTION_ENTRY();
     return dispatch_kernel_1d_helper<Dir, TIn, TOut, PORTFFT_SUBGROUP_SIZES>(
         in, out, in_imag, out_imag, dependencies, n_transforms, input_stride, output_stride, input_distance,
         output_distance, input_offset, output_offset, scale_factor, dimension_data);
@@ -1282,6 +1346,7 @@ class committed_descriptor {
                                         std::size_t output_distance, std::size_t input_offset,
                                         std::size_t output_offset, Scalar scale_factor,
                                         dimension_struct& dimension_data) {
+    LOG_FUNCTION_ENTRY();
     if (SubgroupSize == dimension_data.used_sg_size) {
       const bool input_packed = input_distance == dimension_data.length && input_stride == 1;
       const bool output_packed = output_distance == dimension_data.length && output_stride == 1;
@@ -1294,6 +1359,7 @@ class committed_descriptor {
                                            kernel_data.level, kernel_data.length, SubgroupSize, kernel_data.factors,
                                            kernel_data.num_sgs_per_wg) *
                                        sizeof(Scalar);
+          LOG_TRACE("Local mem required:", minimum_local_mem_required ,"B. Available: ", local_memory_size, "B.");
           if (static_cast<Idx>(minimum_local_mem_required) > local_memory_size) {
             throw out_of_local_memory_error(
                 "Insufficient amount of local memory available: " + std::to_string(local_memory_size) +
@@ -1386,6 +1452,7 @@ class committed_descriptor {
                          const std::vector<sycl::event>& dependencies, std::size_t n_transforms,
                          std::size_t input_offset, std::size_t output_offset, Scalar scale_factor,
                          dimension_struct& dimension_data) {
+    LOG_FUNCTION_ENTRY();
     // mixing const and non-const inputs leads to hard-to-debug linking errors, as both use the same kernel name, but
     // are called from different template instantiations.
     static_assert(!std::is_pointer_v<TIn> || std::is_const_v<std::remove_pointer_t<TIn>>,
@@ -1508,6 +1575,7 @@ struct descriptor {
    */
   explicit descriptor(const std::vector<std::size_t>& lengths)
       : lengths(lengths), forward_strides(detail::get_default_strides(lengths)), backward_strides(forward_strides) {
+    LOG_FUNCTION_ENTRY();
     // TODO: properly set default values for distances for real transforms
     std::size_t total_size = get_flattened_length();
     forward_distance = total_size;
@@ -1520,7 +1588,10 @@ struct descriptor {
    * @param queue queue to use for computations
    * @return committed_descriptor<Scalar, Domain>
    */
-  committed_descriptor<Scalar, Domain> commit(sycl::queue& queue) { return {*this, queue}; }
+  committed_descriptor<Scalar, Domain> commit(sycl::queue& queue) {
+    LOG_FUNCTION_ENTRY();
+    return {*this, queue};
+  }
 
   /**
    * Get the flattened length of an FFT for a single batch, ignoring strides and distance.
diff --git a/src/portfft/dispatcher/global_dispatcher.hpp b/src/portfft/dispatcher/global_dispatcher.hpp
index cae8d8fd..9ebf73fc 100644
--- a/src/portfft/dispatcher/global_dispatcher.hpp
+++ b/src/portfft/dispatcher/global_dispatcher.hpp
@@ -46,6 +46,7 @@ namespace detail {
  */
 inline std::pair<IdxGlobal, IdxGlobal> get_launch_params(IdxGlobal fft_size, IdxGlobal num_batches, detail::level level,
                                                          Idx n_compute_units, Idx subgroup_size, Idx n_sgs_in_wg) {
+  LOG_FUNCTION_ENTRY();
   IdxGlobal n_available_sgs = 8 * n_compute_units * 64;
   IdxGlobal wg_size = n_sgs_in_wg * subgroup_size;
   if (level == detail::level::WORKITEM) {
@@ -75,6 +76,7 @@ inline std::pair<IdxGlobal, IdxGlobal> get_launch_params(IdxGlobal fft_size, Idx
  */
 template <typename T>
 void complex_transpose(const T* a, T* b, IdxGlobal lda, IdxGlobal ldb, IdxGlobal num_elements) {
+  LOG_FUNCTION_ENTRY();
   for (IdxGlobal i = 0; i < num_elements; i++) {
     IdxGlobal j = i / ldb;
     IdxGlobal k = i % ldb;
@@ -90,6 +92,7 @@ void complex_transpose(const T* a, T* b, IdxGlobal lda, IdxGlobal ldb, IdxGlobal
  * @return value to increment the pointer by
  */
 inline IdxGlobal increment_twiddle_offset(detail::level level, Idx factor_size) {
+  LOG_FUNCTION_ENTRY();
   if (level == detail::level::SUBGROUP) {
     return 2 * factor_size;
   }
@@ -107,6 +110,7 @@ template <typename Scalar, domain Domain>
 template <typename Dummy>
 struct committed_descriptor<Scalar, Domain>::calculate_twiddles_struct::inner<detail::level::GLOBAL, Dummy> {
   static Scalar* execute(committed_descriptor& desc, dimension_struct& dimension_data) {
+    LOG_FUNCTION_ENTRY();
     auto& kernels = dimension_data.kernels;
     std::vector<IdxGlobal> factors_idx_global;
     // Get factor sizes per level;
@@ -142,6 +146,7 @@ struct committed_descriptor<Scalar, Domain>::calculate_twiddles_struct::inner<de
     }
     std::vector<Scalar> host_memory(static_cast<std::size_t>(mem_required_for_twiddles));
     std::vector<Scalar> scratch_space(static_cast<std::size_t>(mem_required_for_twiddles));
+    LOG_TRACE("Allocating global memory for twiddles for workgroup implementation. Allocation size", mem_required_for_twiddles);
     Scalar* device_twiddles =
         sycl::malloc_device<Scalar>(static_cast<std::size_t>(mem_required_for_twiddles), desc.queue);
 
@@ -254,14 +259,21 @@ struct committed_descriptor<Scalar, Domain>::set_spec_constants_struct::inner<de
   static void execute(committed_descriptor& /*desc*/, sycl::kernel_bundle<sycl::bundle_state::input>& in_bundle,
                       std::size_t length, const std::vector<Idx>& factors, detail::level level, Idx factor_num,
                       Idx num_factors) {
+    LOG_FUNCTION_ENTRY();
     Idx length_idx = static_cast<Idx>(length);
+    LOG_TRACE("GlobalSubImplSpecConst:", level);
     in_bundle.template set_specialization_constant<detail::GlobalSubImplSpecConst>(level);
+    LOG_TRACE("GlobalSpecConstNumFactors:", num_factors);
     in_bundle.template set_specialization_constant<detail::GlobalSpecConstNumFactors>(num_factors);
+    LOG_TRACE("GlobalSpecConstLevelNum:", factor_num);
     in_bundle.template set_specialization_constant<detail::GlobalSpecConstLevelNum>(factor_num);
     if (level == detail::level::WORKITEM || level == detail::level::WORKGROUP) {
+    LOG_TRACE("SpecConstFftSize:", length_idx);
       in_bundle.template set_specialization_constant<detail::SpecConstFftSize>(length_idx);
     } else if (level == detail::level::SUBGROUP) {
+      LOG_TRACE("SubgroupFactorWISpecConst:", factors[1]);
       in_bundle.template set_specialization_constant<detail::SubgroupFactorWISpecConst>(factors[1]);
+      LOG_TRACE("SubgroupFactorSGSpecConst:", factors[0]);
       in_bundle.template set_specialization_constant<detail::SubgroupFactorSGSpecConst>(factors[0]);
     }
   }
@@ -273,6 +285,7 @@ struct committed_descriptor<Scalar, Domain>::num_scalars_in_local_mem_struct::in
                                                                                     Dummy> {
   static std::size_t execute(committed_descriptor& /*desc*/, std::size_t /*length*/, Idx /*used_sg_size*/,
                              const std::vector<Idx>& /*factors*/, Idx& /*num_sgs_per_wg*/) {
+    LOG_FUNCTION_ENTRY();
     // No work required as all work done in calculate_twiddles;
     return 0;
   }
@@ -288,6 +301,7 @@ struct committed_descriptor<Scalar, Domain>::run_kernel_struct<Dir, LayoutIn, La
                              const std::vector<sycl::event>& dependencies, IdxGlobal n_transforms,
                              IdxGlobal input_offset, IdxGlobal output_offset, Scalar scale_factor,
                              dimension_struct& dimension_data) {
+    LOG_FUNCTION_ENTRY();
     complex_storage storage = desc.params.complex_storage;
     const IdxGlobal vec_size = storage == complex_storage::INTERLEAVED_COMPLEX ? 2 : 1;
     const auto& kernels = dimension_data.kernels;
@@ -309,9 +323,11 @@ struct committed_descriptor<Scalar, Domain>::run_kernel_struct<Dir, LayoutIn, La
       initial_impl_twiddle_offset += 2 * kernels.at(i).batch_size * static_cast<IdxGlobal>(kernels.at(i).length);
     }
     for (std::size_t i = 0; i < num_batches; i += max_batches_in_l2) {
+      LOG_TRACE("Global implementation working on batches", i, "through", i + max_batches_in_l2, "out of", num_batches);
       IdxGlobal intermediate_twiddles_offset = 0;
       IdxGlobal impl_twiddle_offset = initial_impl_twiddle_offset;
       auto& kernel0 = kernels.at(0);
+      LOG_TRACE("Dispatching the kernel for factor 0 of global implementation");
       l2_events = detail::compute_level<Scalar, Domain, Dir, detail::layout::BATCH_INTERLEAVED,
                                         detail::layout::BATCH_INTERLEAVED, SubgroupSize>(
           kernel0, in, desc.scratch_ptr_1.get(), in_imag, desc.scratch_ptr_1.get() + imag_offset, twiddles_ptr,
@@ -326,7 +342,9 @@ struct committed_descriptor<Scalar, Domain>::run_kernel_struct<Dir, LayoutIn, La
       for (std::size_t factor_num = 1; factor_num < static_cast<std::size_t>(dimension_data.num_factors);
            factor_num++) {
         auto& current_kernel = kernels.at(factor_num);
+        LOG_TRACE("Dispatching the kernel for factor", factor_num, "of global implementation");
         if (static_cast<Idx>(factor_num) == dimension_data.num_factors - 1) {
+          LOG_TRACE("This is the last kernel");
           l2_events =
               detail::compute_level<Scalar, Domain, Dir, detail::layout::PACKED, detail::layout::PACKED, SubgroupSize>(
                   current_kernel, desc.scratch_ptr_1.get(), desc.scratch_ptr_1.get(),
@@ -354,6 +372,7 @@ struct committed_descriptor<Scalar, Domain>::run_kernel_struct<Dir, LayoutIn, La
         cgh.host_task([&]() {});
       });
       for (Idx num_transpose = num_transposes - 1; num_transpose > 0; num_transpose--) {
+        LOG_TRACE("Dispatching the transpose kernel", num_transpose);
         event = detail::transpose_level<Scalar, Domain>(
             kernels.at(static_cast<std::size_t>(num_transpose) + static_cast<std::size_t>(num_factors)),
             desc.scratch_ptr_1.get(), desc.scratch_ptr_2.get(), factors_and_scan, committed_size,
@@ -368,6 +387,7 @@ struct committed_descriptor<Scalar, Domain>::run_kernel_struct<Dir, LayoutIn, La
         }
         desc.scratch_ptr_1.swap(desc.scratch_ptr_2);
       }
+      LOG_TRACE("Dispatching the transpose kernel 0");
       event = detail::transpose_level<Scalar, Domain>(
           kernels.at(static_cast<std::size_t>(num_factors)), desc.scratch_ptr_1.get(), out, factors_and_scan,
           committed_size, static_cast<Idx>(max_batches_in_l2), n_transforms, static_cast<IdxGlobal>(i), num_factors,
diff --git a/src/portfft/dispatcher/subgroup_dispatcher.hpp b/src/portfft/dispatcher/subgroup_dispatcher.hpp
index e511d280..32b57760 100644
--- a/src/portfft/dispatcher/subgroup_dispatcher.hpp
+++ b/src/portfft/dispatcher/subgroup_dispatcher.hpp
@@ -47,6 +47,7 @@ namespace detail {
 template <typename T>
 IdxGlobal get_global_size_subgroup(IdxGlobal n_transforms, Idx factor_sg, Idx subgroup_size, Idx num_sgs_per_wg,
                                    Idx n_compute_units) {
+  LOG_FUNCTION_ENTRY();
   Idx maximum_n_sgs = 2 * n_compute_units * 64;
   Idx maximum_n_wgs = maximum_n_sgs / num_sgs_per_wg;
   Idx wg_size = subgroup_size * num_sgs_per_wg;
@@ -581,13 +582,16 @@ template <typename Scalar, domain Domain>
 template <typename Dummy>
 struct committed_descriptor<Scalar, Domain>::calculate_twiddles_struct::inner<detail::level::SUBGROUP, Dummy> {
   static Scalar* execute(committed_descriptor& desc, dimension_struct& dimension_data) {
+    LOG_FUNCTION_ENTRY();
     const auto& kernel_data = dimension_data.kernels.at(0);
     Idx factor_wi = kernel_data.factors[0];
     Idx factor_sg = kernel_data.factors[1];
+    LOG_TRACE("Allocating global memory for twiddles for subgroup implementation. Allocation size", kernel_data.length * 2);
     Scalar* res = sycl::aligned_alloc_device<Scalar>(
         alignof(sycl::vec<Scalar, PORTFFT_VEC_LOAD_BYTES / sizeof(Scalar)>), kernel_data.length * 2, desc.queue);
     sycl::range<2> kernel_range({static_cast<std::size_t>(factor_sg), static_cast<std::size_t>(factor_wi)});
     desc.queue.submit([&](sycl::handler& cgh) {
+      LOG_TRACE("Launching twiddle calculation kernel for subgroup implementation with global size", factor_sg, factor_wi);
       cgh.parallel_for(kernel_range, [=](sycl::item<2> it) {
         Idx n = static_cast<Idx>(it.get_id(0));
         Idx k = static_cast<Idx>(it.get_id(1));
@@ -610,6 +614,7 @@ struct committed_descriptor<Scalar, Domain>::run_kernel_struct<Dir, LayoutIn, La
                              const std::vector<sycl::event>& dependencies, IdxGlobal n_transforms,
                              IdxGlobal input_offset, IdxGlobal output_offset, Scalar scale_factor,
                              dimension_struct& dimension_data) {
+    LOG_FUNCTION_ENTRY();
     constexpr detail::memory Mem = std::is_pointer_v<TOut> ? detail::memory::USM : detail::memory::BUFFER;
     auto& kernel_data = dimension_data.kernels.at(0);
     Scalar* twiddles = kernel_data.twiddles_forward.get();
@@ -632,6 +637,7 @@ struct committed_descriptor<Scalar, Domain>::run_kernel_struct<Dir, LayoutIn, La
 #ifdef PORTFFT_LOG
       sycl::stream s{1024 * 16 * 16, 1024 * 8, cgh};
 #endif
+      LOG_TRACE("Launching subgroup kernel with global_size", global_size, "local_size", SubgroupSize * kernel_data.num_sgs_per_wg, "local memory allocation of size", local_elements, "local memory allocation for twiddles of size", twiddle_elements);
       cgh.parallel_for<detail::subgroup_kernel<Scalar, Domain, Dir, Mem, LayoutIn, LayoutOut, SubgroupSize>>(
           sycl::nd_range<1>{{global_size}, {static_cast<std::size_t>(SubgroupSize * kernel_data.num_sgs_per_wg)}},
           [=](sycl::nd_item<1> it, sycl::kernel_handler kh) PORTFFT_REQD_SUBGROUP_SIZE(SubgroupSize) {
@@ -657,7 +663,10 @@ struct committed_descriptor<Scalar, Domain>::set_spec_constants_struct::inner<de
   static void execute(committed_descriptor& /*desc*/, sycl::kernel_bundle<sycl::bundle_state::input>& in_bundle,
                       std::size_t /*length*/, const std::vector<Idx>& factors, detail::level /*level*/,
                       Idx /*factor_num*/, Idx /*num_factors*/) {
+    LOG_FUNCTION_ENTRY();
+    LOG_TRACE("SubgroupFactorWISpecConst:", factors[0]);
     in_bundle.template set_specialization_constant<detail::SubgroupFactorWISpecConst>(factors[0]);
+    LOG_TRACE("SubgroupFactorSGSpecConst:", factors[1]);
     in_bundle.template set_specialization_constant<detail::SubgroupFactorSGSpecConst>(factors[1]);
   }
 };
@@ -668,6 +677,7 @@ struct committed_descriptor<Scalar, Domain>::num_scalars_in_local_mem_struct::in
                                                                                     Dummy> {
   static std::size_t execute(committed_descriptor& desc, std::size_t length, Idx used_sg_size,
                              const std::vector<Idx>& factors, Idx& num_sgs_per_wg) {
+    LOG_FUNCTION_ENTRY();
     Idx dft_length = static_cast<Idx>(length);
     Idx twiddle_bytes = 2 * dft_length * static_cast<Idx>(sizeof(Scalar));
     if constexpr (LayoutIn == detail::layout::BATCH_INTERLEAVED) {
diff --git a/src/portfft/dispatcher/workgroup_dispatcher.hpp b/src/portfft/dispatcher/workgroup_dispatcher.hpp
index 84f08dbb..6d6ae4f1 100644
--- a/src/portfft/dispatcher/workgroup_dispatcher.hpp
+++ b/src/portfft/dispatcher/workgroup_dispatcher.hpp
@@ -63,6 +63,7 @@ PORTFFT_INLINE constexpr Idx get_num_batches_in_local_mem_workgroup(Idx workgrou
 template <typename T, detail::layout LayoutIn>
 IdxGlobal get_global_size_workgroup(IdxGlobal n_transforms, Idx subgroup_size, Idx num_sgs_per_wg,
                                     Idx n_compute_units) {
+  LOG_FUNCTION_ENTRY();
   Idx maximum_n_sgs = 8 * n_compute_units * 64;
   Idx maximum_n_wgs = maximum_n_sgs / num_sgs_per_wg;
   Idx wg_size = subgroup_size * num_sgs_per_wg;
@@ -282,6 +283,7 @@ struct committed_descriptor<Scalar, Domain>::run_kernel_struct<Dir, LayoutIn, La
                              const std::vector<sycl::event>& dependencies, IdxGlobal n_transforms,
                              IdxGlobal input_offset, IdxGlobal output_offset, Scalar scale_factor,
                              dimension_struct& dimension_data) {
+    LOG_FUNCTION_ENTRY();
     auto& kernel_data = dimension_data.kernels.at(0);
     Idx num_batches_in_local_mem = [=]() {
       if constexpr (LayoutIn == detail::layout::BATCH_INTERLEAVED) {
@@ -312,8 +314,9 @@ struct committed_descriptor<Scalar, Domain>::run_kernel_struct<Dir, LayoutIn, La
 #ifdef PORTFFT_LOG
       sycl::stream s{1024 * 16 * 8 * 2, 1024, cgh};
 #endif
+      LOG_TRACE("Launching workgroup kernel with global_size", global_size, "local_size", SubgroupSize * kernel_data.num_sgs_per_wg, "local memory allocation of size", local_elements);
       cgh.parallel_for<detail::workgroup_kernel<Scalar, Domain, Dir, Mem, LayoutIn, LayoutOut, SubgroupSize>>(
-          sycl::nd_range<1>{{global_size}, {static_cast<std::size_t>(SubgroupSize * PORTFFT_SGS_IN_WG)}},
+          sycl::nd_range<1>{{global_size}, {static_cast<std::size_t>(SubgroupSize * kernel_data.num_sgs_per_wg)}},
           [=](sycl::nd_item<1> it, sycl::kernel_handler kh) PORTFFT_REQD_SUBGROUP_SIZE(SubgroupSize) {
             detail::global_data_struct global_data{
 #ifdef PORTFFT_LOG
@@ -337,7 +340,9 @@ struct committed_descriptor<Scalar, Domain>::set_spec_constants_struct::inner<de
   static void execute(committed_descriptor& /*desc*/, sycl::kernel_bundle<sycl::bundle_state::input>& in_bundle,
                       std::size_t length, const std::vector<Idx>& /*factors*/, detail::level /*level*/,
                       Idx /*factor_num*/, Idx /*num_factors*/) {
+    LOG_FUNCTION_ENTRY();
     const Idx length_idx = static_cast<Idx>(length);
+    LOG_TRACE("SpecConstFftSize:", length_idx);
     in_bundle.template set_specialization_constant<detail::SpecConstFftSize>(length_idx);
   }
 };
@@ -348,6 +353,7 @@ struct committed_descriptor<Scalar, Domain>::num_scalars_in_local_mem_struct::in
                                                                                     Dummy> {
   static std::size_t execute(committed_descriptor& /*desc*/, std::size_t length, Idx used_sg_size,
                              const std::vector<Idx>& factors, Idx& /*num_sgs_per_wg*/) {
+    LOG_FUNCTION_ENTRY();
     std::size_t n = static_cast<std::size_t>(factors[0]) * static_cast<std::size_t>(factors[1]);
     std::size_t m = static_cast<std::size_t>(factors[2]) * static_cast<std::size_t>(factors[3]);
     // working memory + twiddles for subgroup impl for the two sizes
@@ -363,6 +369,7 @@ template <typename Scalar, domain Domain>
 template <typename Dummy>
 struct committed_descriptor<Scalar, Domain>::calculate_twiddles_struct::inner<detail::level::WORKGROUP, Dummy> {
   static Scalar* execute(committed_descriptor& desc, dimension_struct& dimension_data) {
+    LOG_FUNCTION_ENTRY();
     const auto& kernel_data = dimension_data.kernels.at(0);
     Idx factor_wi_n = kernel_data.factors[0];
     Idx factor_sg_n = kernel_data.factors[1];
@@ -372,10 +379,12 @@ struct committed_descriptor<Scalar, Domain>::calculate_twiddles_struct::inner<de
     Idx n = factor_wi_n * factor_sg_n;
     Idx m = factor_wi_m * factor_sg_m;
     Idx res_size = 2 * (m + n + fft_size);
+    LOG_TRACE("Allocating global memory for twiddles for workgroup implementation. Allocation size", res_size);
     Scalar* res =
         sycl::aligned_alloc_device<Scalar>(alignof(sycl::vec<Scalar, PORTFFT_VEC_LOAD_BYTES / sizeof(Scalar)>),
                                            static_cast<std::size_t>(res_size), desc.queue);
     desc.queue.submit([&](sycl::handler& cgh) {
+      LOG_TRACE("Launching twiddle calculation kernel for factor 1 of workgroup implementation with global size", factor_sg_n, factor_wi_n);
       cgh.parallel_for(sycl::range<2>({static_cast<std::size_t>(factor_sg_n), static_cast<std::size_t>(factor_wi_n)}),
                        [=](sycl::item<2> it) {
                          Idx n = static_cast<Idx>(it.get_id(0));
@@ -384,6 +393,7 @@ struct committed_descriptor<Scalar, Domain>::calculate_twiddles_struct::inner<de
                        });
     });
     desc.queue.submit([&](sycl::handler& cgh) {
+      LOG_TRACE("Launching twiddle calculation kernel for factor 2 of workgroup implementation with global size", factor_sg_m, factor_wi_m);
       cgh.parallel_for(sycl::range<2>({static_cast<std::size_t>(factor_sg_m), static_cast<std::size_t>(factor_wi_m)}),
                        [=](sycl::item<2> it) {
                          Idx n = static_cast<Idx>(it.get_id(0));
@@ -392,6 +402,7 @@ struct committed_descriptor<Scalar, Domain>::calculate_twiddles_struct::inner<de
                        });
     });
     desc.queue.submit([&](sycl::handler& cgh) {
+      LOG_TRACE("Launching twiddle calculation kernel for workgroup implementation with global size", n, factor_wi_m, factor_sg_m);
       cgh.parallel_for(sycl::range<3>({static_cast<std::size_t>(n), static_cast<std::size_t>(factor_wi_m),
                                        static_cast<std::size_t>(factor_sg_m)}),
                        [=](sycl::item<3> it) {
diff --git a/src/portfft/dispatcher/workitem_dispatcher.hpp b/src/portfft/dispatcher/workitem_dispatcher.hpp
index 533fac4d..d9a2bfaa 100644
--- a/src/portfft/dispatcher/workitem_dispatcher.hpp
+++ b/src/portfft/dispatcher/workitem_dispatcher.hpp
@@ -45,6 +45,7 @@ namespace detail {
  */
 template <typename T>
 IdxGlobal get_global_size_workitem(IdxGlobal n_transforms, Idx subgroup_size, Idx num_sgs_per_wg, Idx n_compute_units) {
+  LOG_FUNCTION_ENTRY();
   Idx maximum_n_sgs = 8 * n_compute_units * 64;
   Idx maximum_n_wgs = maximum_n_sgs / num_sgs_per_wg;
   Idx wg_size = subgroup_size * num_sgs_per_wg;
@@ -281,6 +282,7 @@ struct committed_descriptor<Scalar, Domain>::run_kernel_struct<Dir, LayoutIn, La
                              const std::vector<sycl::event>& dependencies, IdxGlobal n_transforms,
                              IdxGlobal input_offset, IdxGlobal output_offset, Scalar scale_factor,
                              dimension_struct& dimension_data) {
+    LOG_FUNCTION_ENTRY();
     constexpr detail::memory Mem = std::is_pointer_v<TOut> ? detail::memory::USM : detail::memory::BUFFER;
     auto& kernel_data = dimension_data.kernels.at(0);
     std::size_t local_elements =
@@ -299,6 +301,7 @@ struct committed_descriptor<Scalar, Domain>::run_kernel_struct<Dir, LayoutIn, La
 #ifdef PORTFFT_LOG
       sycl::stream s{1024 * 16 * 8, 1024, cgh};
 #endif
+      LOG_TRACE("Launching workitem kernel with global_size", global_size, "local_size", SubgroupSize * kernel_data.num_sgs_per_wg, "local memory allocation of size", local_elements);
       cgh.parallel_for<detail::workitem_kernel<Scalar, Domain, Dir, Mem, LayoutIn, LayoutOut, SubgroupSize>>(
           sycl::nd_range<1>{{global_size}, {static_cast<std::size_t>(SubgroupSize * kernel_data.num_sgs_per_wg)}},
           [=](sycl::nd_item<1> it, sycl::kernel_handler kh) PORTFFT_REQD_SUBGROUP_SIZE(SubgroupSize) {
@@ -324,7 +327,9 @@ struct committed_descriptor<Scalar, Domain>::set_spec_constants_struct::inner<de
   static void execute(committed_descriptor& /*desc*/, sycl::kernel_bundle<sycl::bundle_state::input>& in_bundle,
                       std::size_t length, const std::vector<Idx>& /*factors*/, detail::level /*level*/,
                       Idx /*factor_num*/, Idx /*num_factors*/) {
+    LOG_FUNCTION_ENTRY();
     const Idx length_idx = static_cast<Idx>(length);
+    LOG_TRACE("SpecConstFftSize:", length_idx);
     in_bundle.template set_specialization_constant<detail::SpecConstFftSize>(length_idx);
   }
 };
@@ -335,6 +340,7 @@ struct committed_descriptor<Scalar, Domain>::num_scalars_in_local_mem_struct::in
                                                                                     Dummy> {
   static std::size_t execute(committed_descriptor& desc, std::size_t length, Idx used_sg_size,
                              const std::vector<Idx>& /*factors*/, Idx& num_sgs_per_wg) {
+    LOG_FUNCTION_ENTRY();
     Idx num_scalars_per_sg = detail::pad_local(2 * static_cast<Idx>(length) * used_sg_size, 1);
     Idx max_n_sgs = desc.local_memory_size / static_cast<Idx>(sizeof(Scalar)) / num_scalars_per_sg;
     num_sgs_per_wg = std::min(Idx(PORTFFT_SGS_IN_WG), std::max(Idx(1), max_n_sgs));
@@ -346,7 +352,10 @@ struct committed_descriptor<Scalar, Domain>::num_scalars_in_local_mem_struct::in
 template <typename Scalar, domain Domain>
 template <typename Dummy>
 struct committed_descriptor<Scalar, Domain>::calculate_twiddles_struct::inner<detail::level::WORKITEM, Dummy> {
-  static Scalar* execute(committed_descriptor& /*desc*/, dimension_struct& /*dimension_data*/) { return nullptr; }
+  static Scalar* execute(committed_descriptor& /*desc*/, dimension_struct& /*dimension_data*/) {
+    LOG_FUNCTION_ENTRY();
+    return nullptr;
+  }
 };
 
 }  // namespace portfft
diff --git a/src/portfft/enums.hpp b/src/portfft/enums.hpp
index f26db54e..1f7cbb82 100644
--- a/src/portfft/enums.hpp
+++ b/src/portfft/enums.hpp
@@ -39,7 +39,7 @@ enum class direction { FORWARD, BACKWARD };
 constexpr direction inv(direction dir) { return dir == direction::FORWARD ? direction::BACKWARD : direction::FORWARD; }
 
 namespace detail {
-enum class pad { DO_PAD, DONT_PAD };
+enum class pad { DONT_PAD, DO_PAD };
 
 enum class level { WORKITEM, SUBGROUP, WORKGROUP, GLOBAL };
 
@@ -66,9 +66,9 @@ enum class transfer_direction {
   GLOBAL_TO_LOCAL
 };
 
-enum class elementwise_multiply { APPLIED, NOT_APPLIED };
+enum class elementwise_multiply { NOT_APPLIED, APPLIED };
 
-enum class apply_scale_factor { APPLIED, NOT_APPLIED };
+enum class apply_scale_factor { NOT_APPLIED, APPLIED };
 }  // namespace detail
 
 }  // namespace portfft
diff --git a/src/portfft/utils.hpp b/src/portfft/utils.hpp
index f9b086c9..bbe76146 100644
--- a/src/portfft/utils.hpp
+++ b/src/portfft/utils.hpp
@@ -26,6 +26,7 @@
 #include <limits>
 #include <vector>
 
+#include "common/logging.hpp"
 #include "defines.hpp"
 #include "enums.hpp"
 
@@ -44,6 +45,7 @@ class transpose_kernel;
 template <template <typename, domain, direction, detail::memory, detail::layout, detail::layout, Idx> class Kernel,
           typename Scalar, domain Domain, Idx SubgroupSize>
 std::vector<sycl::kernel_id> get_ids() {
+  LOG_FUNCTION_ENTRY();
   std::vector<sycl::kernel_id> ids;
 #define PORTFFT_GET_ID(DIRECTION, MEMORY, LAYOUT_IN, LAYOUT_OUT)                                                \
   try {                                                                                                         \
@@ -107,6 +109,7 @@ constexpr bool can_cast_safely(const InputType& x) {
  */
 template <typename F>
 IdxGlobal factorize_input_impl(IdxGlobal factor_size, F&& check_and_select_target_level, bool transposed) {
+  LOG_FUNCTION_ENTRY();
   IdxGlobal fact_1 = factor_size;
   if (check_and_select_target_level(fact_1, transposed)) {
     return fact_1;
@@ -134,6 +137,7 @@ IdxGlobal factorize_input_impl(IdxGlobal factor_size, F&& check_and_select_targe
  */
 template <typename F>
 void factorize_input(IdxGlobal input_size, F&& check_and_select_target_level) {
+  LOG_FUNCTION_ENTRY();
   if (detail::factorize(input_size) == 1) {
     throw unsupported_configuration("Large Prime sized FFTs are currently not supported");
   }
@@ -150,6 +154,7 @@ void factorize_input(IdxGlobal input_size, F&& check_and_select_target_level) {
  */
 template <typename Scalar>
 std::vector<sycl::kernel_id> get_transpose_kernel_ids() {
+  LOG_FUNCTION_ENTRY();
   std::vector<sycl::kernel_id> ids;
 #define PORTFFT_GET_TRANSPOSE_KERNEL_ID(MEMORY)                               \
   try {                                                                       \

From 1af7430d0a2a63af0e5b851aa12da095af9fbc14 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Tadej=20Ciglari=C4=8D?= <tadej.ciglaric@codeplay.com>
Date: Mon, 29 Jan 2024 10:44:30 +0100
Subject: [PATCH 2/9] use env variables

---
 src/portfft/common/global.hpp                 |  16 +--
 src/portfft/common/logging.hpp                | 106 ++++++++++++++----
 .../dispatcher/subgroup_dispatcher.hpp        |   4 +-
 .../dispatcher/workgroup_dispatcher.hpp       |   4 +-
 .../dispatcher/workitem_dispatcher.hpp        |   4 +-
 test/unit_test/transfers.cpp                  |   4 +-
 6 files changed, 98 insertions(+), 40 deletions(-)

diff --git a/src/portfft/common/global.hpp b/src/portfft/common/global.hpp
index 5c7b498c..f1375eed 100644
--- a/src/portfft/common/global.hpp
+++ b/src/portfft/common/global.hpp
@@ -217,10 +217,10 @@ void launch_kernel(sycl::accessor<const Scalar, 1, sycl::access::mode::read>& in
   LOG_TRACE("Launching kernel for global implementation with global_size", global_range[0], "local_size", local_range[0]);
   cgh.parallel_for<global_kernel<Scalar, Domain, Dir, memory::BUFFER, LayoutIn, LayoutOut, SubgroupSize>>(
       sycl::nd_range<1>(global_range, local_range),
-      [=](sycl::nd_item<1> it, sycl::kernel_handler kh) PORTFFT_REQD_SUBGROUP_SIZE(SubgroupSize) {
+      [=, global_logging_config=detail::global_logging_config](sycl::nd_item<1> it, sycl::kernel_handler kh) PORTFFT_REQD_SUBGROUP_SIZE(SubgroupSize) {
         detail::global_data_struct global_data{
 #ifdef PORTFFT_LOG
-            s,
+            s, global_logging_config, 
 #endif
             it};
         dispatch_level<Dir, Scalar, LayoutIn, LayoutOut, SubgroupSize>(
@@ -274,10 +274,10 @@ void launch_kernel(const Scalar* input, Scalar* output, const Scalar* input_imag
   LOG_TRACE("Launching kernel for global implementation with global_size", global_range[0], "local_size", local_range[0]);
   cgh.parallel_for<global_kernel<Scalar, Domain, Dir, memory::USM, LayoutIn, LayoutOut, SubgroupSize>>(
       sycl::nd_range<1>(global_range, local_range),
-      [=](sycl::nd_item<1> it, sycl::kernel_handler kh) PORTFFT_REQD_SUBGROUP_SIZE(SubgroupSize) {
+      [=, global_logging_config=detail::global_logging_config](sycl::nd_item<1> it, sycl::kernel_handler kh) PORTFFT_REQD_SUBGROUP_SIZE(SubgroupSize) {
         detail::global_data_struct global_data{
 #ifdef PORTFFT_LOG
-            s,
+            s, global_logging_config, 
 #endif
             it};
         dispatch_level<Dir, Scalar, LayoutIn, LayoutOut, SubgroupSize>(
@@ -317,10 +317,10 @@ static void dispatch_transpose_kernel_impl(const Scalar* input,
   LOG_TRACE("Launching transpose kernel with global_size", lda_rounded, ldb_rounded, "local_size", 16, 16);
   cgh.parallel_for<detail::transpose_kernel<Scalar, memory::BUFFER>>(
       sycl::nd_range<2>({lda_rounded, ldb_rounded}, {16, 16}),
-      [=](sycl::nd_item<2> it, sycl::kernel_handler kh) {
+      [=, global_logging_config=detail::global_logging_config](sycl::nd_item<2> it, sycl::kernel_handler kh) {
         detail::global_data_struct global_data{
 #ifdef PORTFFT_LOG
-            s,
+            s, global_logging_config, 
 #endif
             it};
         global_data.log_message_global("entering transpose kernel - buffer impl");
@@ -372,10 +372,10 @@ static void dispatch_transpose_kernel_impl(const Scalar* input, Scalar* output,
   LOG_TRACE("Launching transpose kernel with global_size", lda_rounded, ldb_rounded, "local_size", 16, 16);
   cgh.parallel_for<detail::transpose_kernel<Scalar, memory::USM>>(
       sycl::nd_range<2>({lda_rounded, ldb_rounded}, {16, 16}),
-      [=](sycl::nd_item<2> it, sycl::kernel_handler kh) {
+      [=, global_logging_config=detail::global_logging_config](sycl::nd_item<2> it, sycl::kernel_handler kh) {
         detail::global_data_struct global_data{
 #ifdef PORTFFT_LOG
-            s,
+            s, global_logging_config, 
 #endif
             it};
         global_data.log_message_global("entering transpose kernel - USM impl");
diff --git a/src/portfft/common/logging.hpp b/src/portfft/common/logging.hpp
index a677284a..a9cd2f90 100644
--- a/src/portfft/common/logging.hpp
+++ b/src/portfft/common/logging.hpp
@@ -28,6 +28,53 @@
 
 namespace portfft::detail {
 
+struct logging_config{
+  bool log_transfers = true;
+  bool log_dumps = true;
+  bool log_trace = true;
+  bool log_warnings = true;
+  logging_config(){
+    char* log_transfers_str = getenv("PORTFFT_LOG_TRANSFERS");
+    if(log_transfers_str != nullptr){
+      log_transfers = static_cast<bool>(atoi(log_transfers_str));
+#ifndef PORTFFT_LOG_TRANSFERS
+      if(log_transfers){
+        std::cerr << "Can not enable logging of transfers if it is disabled at compile time." << std::endl;
+      }
+#endif
+    }
+    char* log_dumps_str = getenv("PORTFFT_LOG_DUMPS");
+    if(log_dumps_str != nullptr){
+      log_dumps = static_cast<bool>(atoi(log_dumps_str));
+#ifndef PORTFFT_LOG_DUMPS
+      if(log_dumps){
+        std::cerr << "Can not enable logging of dumps if it is disabled at compile time." << std::endl;
+      }
+#endif
+    }
+    char* log_trace_str = getenv("PORTFFT_LOG_TRACE");
+    if(log_trace_str != nullptr){
+      log_trace = static_cast<bool>(atoi(log_trace_str));
+#ifndef PORTFFT_LOG_TRACE
+      if(log_trace){
+        std::cerr << "Can not enable logging of traces if it is disabled at compile time." << std::endl;
+      }
+#endif
+    }
+    char* log_warnings_str = getenv("PORTFFT_LOG_WARNINGS");
+    if(log_warnings_str != nullptr){
+      log_warnings = static_cast<bool>(atoi(log_warnings_str));
+#ifndef PORTFFT_LOG_WARNINGS
+      if(log_warnings){
+        std::cerr << "Can not enable logging of warnings if it is disabled at compile time." << std::endl;
+      }
+#endif
+    }
+  }
+};
+
+const logging_config global_logging_config;
+
 /**
  * Struct containing objects that are used in almost all functions.
  */
@@ -35,6 +82,7 @@ template <Idx Dim = 1>
 struct global_data_struct {
 #ifdef PORTFFT_LOG
   sycl::stream s;
+  logging_config global_logging_config;
 #endif
   sycl::nd_item<Dim> it;
   sycl::sub_group sg;
@@ -47,12 +95,12 @@ struct global_data_struct {
    */
   global_data_struct(
 #ifdef PORTFFT_LOG
-      sycl::stream s,
+      sycl::stream s, logging_config global_logging_config,
 #endif
       sycl::nd_item<Dim> it)
       :
 #ifdef PORTFFT_LOG
-        s(s << sycl::setprecision(3)),
+        s(s << sycl::setprecision(3)), global_logging_config(global_logging_config),
 #endif
         it(it),
         sg(it.get_sub_group()) {
@@ -121,7 +169,7 @@ struct global_data_struct {
   PORTFFT_INLINE void log_dump_local([[maybe_unused]] const char* message, [[maybe_unused]] ViewT data,
                                      [[maybe_unused]] Idx num) {
 #ifdef PORTFFT_LOG_DUMPS
-    if (it.get_local_id(0) == 0) {
+    if (global_logging_config.log_dumps && it.get_local_id(0) == 0) {
       s << "wg_id " << it.get_group(0);
       s << " " << message << " ";
       if (num) {
@@ -149,15 +197,17 @@ struct global_data_struct {
   PORTFFT_INLINE void log_dump_private([[maybe_unused]] const char* message, [[maybe_unused]] T* ptr,
                                        [[maybe_unused]] Idx num) {
 #ifdef PORTFFT_LOG_DUMPS
-    log_ids();
-    s << message << " ";
-    if (num) {
-      s << ptr[0];
-    }
-    for (Idx i = 1; i < num; i++) {
-      s << ", " << ptr[i];
+    if (global_logging_config.log_dumps){
+      log_ids();
+      s << message << " ";
+      if (num) {
+        s << ptr[0];
+      }
+      for (Idx i = 1; i < num; i++) {
+        s << ", " << ptr[i];
+      }
+      s << "\n" << sycl::stream_manipulator::flush;
     }
-    s << "\n" << sycl::stream_manipulator::flush;
 #endif
   }
 
@@ -172,8 +222,10 @@ struct global_data_struct {
   template <typename... Ts>
   PORTFFT_INLINE void log_message([[maybe_unused]] Ts... messages) {
 #ifdef PORTFFT_LOG_TRANSFERS
-    log_ids();
-    log_message_impl(messages...);
+    if (global_logging_config.log_transfers){
+      log_ids();
+      log_message_impl(messages...);
+    }
 #endif
   }
 
@@ -190,7 +242,7 @@ struct global_data_struct {
   template <typename... Ts>
   PORTFFT_INLINE void log_message_subgroup([[maybe_unused]] Ts... messages) {
 #ifdef PORTFFT_LOG_TRANSFERS
-    if (sg.leader()) {
+    if (global_logging_config.log_transfers && sg.leader()) {
       s << "sg_id " << sg.get_group_linear_id() << " "
         << "wg_id " << it.get_group(0) << " ";
       log_message_impl(messages...);
@@ -210,7 +262,7 @@ struct global_data_struct {
   template <typename... Ts>
   PORTFFT_INLINE void log_message_local([[maybe_unused]] Ts... messages) {
 #ifdef PORTFFT_LOG_TRANSFERS
-    if (it.get_local_id(0) == 0) {
+    if (global_logging_config.log_transfers && it.get_local_id(0) == 0) {
       s << "wg_id " << it.get_group(0) << " ";
       log_message_impl(messages...);
     }
@@ -229,7 +281,7 @@ struct global_data_struct {
   template <typename... Ts>
   PORTFFT_INLINE void log_message_global([[maybe_unused]] Ts... messages) {
 #ifdef PORTFFT_LOG_TRACE
-    if (it.get_global_id(0) == 0) {
+    if (global_logging_config.log_trace && it.get_global_id(0) == 0) {
       log_message_impl(messages...);
     }
 #endif
@@ -337,11 +389,13 @@ template <typename T>
 PORTFFT_INLINE void dump_host([[maybe_unused]] const char* msg, [[maybe_unused]] T* host_ptr,
                               [[maybe_unused]] std::size_t size) {
 #ifdef PORTFFT_LOG_DUMPS
-  std::cout << msg << " ";
-  for (std::size_t i = 0; i < size; i++) {
-    std::cout << host_ptr[i] << ", ";
+  if(global_logging_config.log_dumps){
+    std::cout << msg << " ";
+    for (std::size_t i = 0; i < size; i++) {
+      std::cout << host_ptr[i] << ", ";
+    }
+    std::cout << std::endl;
   }
-  std::cout << std::endl;
 #endif
 }
 
@@ -360,9 +414,11 @@ PORTFFT_INLINE void dump_device([[maybe_unused]] sycl::queue& q, [[maybe_unused]
                                 [[maybe_unused]] T* dev_ptr, [[maybe_unused]] std::size_t size,
                                 [[maybe_unused]] const std::vector<sycl::event>& dependencies = {}) {
 #ifdef PORTFFT_LOG_DUMPS
-  std::vector<T> tmp(size);
-  q.copy(dev_ptr, tmp.data(), size, dependencies).wait();
-  dump_host(msg, tmp.data(), size);
+  if(global_logging_config.log_dumps){
+    std::vector<T> tmp(size); 
+    q.copy(dev_ptr, tmp.data(), size, dependencies).wait();
+    dump_host(msg, tmp.data(), size);
+  }
 #endif
 }
 
@@ -377,7 +433,9 @@ PORTFFT_INLINE void dump_device([[maybe_unused]] sycl::queue& q, [[maybe_unused]
   template <typename... Ts>
   PORTFFT_INLINE void log_message([[maybe_unused]] Ts... messages) {
 #ifdef PORTFFT_LOG_TRACE
-    log_message_impl(messages...);
+    if(global_logging_config.log_trace){
+      log_message_impl(messages...);
+    }
 #endif
   }
 
diff --git a/src/portfft/dispatcher/subgroup_dispatcher.hpp b/src/portfft/dispatcher/subgroup_dispatcher.hpp
index 32b57760..754b9b1a 100644
--- a/src/portfft/dispatcher/subgroup_dispatcher.hpp
+++ b/src/portfft/dispatcher/subgroup_dispatcher.hpp
@@ -640,10 +640,10 @@ struct committed_descriptor<Scalar, Domain>::run_kernel_struct<Dir, LayoutIn, La
       LOG_TRACE("Launching subgroup kernel with global_size", global_size, "local_size", SubgroupSize * kernel_data.num_sgs_per_wg, "local memory allocation of size", local_elements, "local memory allocation for twiddles of size", twiddle_elements);
       cgh.parallel_for<detail::subgroup_kernel<Scalar, Domain, Dir, Mem, LayoutIn, LayoutOut, SubgroupSize>>(
           sycl::nd_range<1>{{global_size}, {static_cast<std::size_t>(SubgroupSize * kernel_data.num_sgs_per_wg)}},
-          [=](sycl::nd_item<1> it, sycl::kernel_handler kh) PORTFFT_REQD_SUBGROUP_SIZE(SubgroupSize) {
+          [=, global_logging_config=detail::global_logging_config](sycl::nd_item<1> it, sycl::kernel_handler kh) PORTFFT_REQD_SUBGROUP_SIZE(SubgroupSize) {
             detail::global_data_struct global_data{
 #ifdef PORTFFT_LOG
-                s,
+                s, global_logging_config, 
 #endif
                 it};
             global_data.log_message_global("Running subgroup kernel");
diff --git a/src/portfft/dispatcher/workgroup_dispatcher.hpp b/src/portfft/dispatcher/workgroup_dispatcher.hpp
index 6d6ae4f1..40f4d059 100644
--- a/src/portfft/dispatcher/workgroup_dispatcher.hpp
+++ b/src/portfft/dispatcher/workgroup_dispatcher.hpp
@@ -317,10 +317,10 @@ struct committed_descriptor<Scalar, Domain>::run_kernel_struct<Dir, LayoutIn, La
       LOG_TRACE("Launching workgroup kernel with global_size", global_size, "local_size", SubgroupSize * kernel_data.num_sgs_per_wg, "local memory allocation of size", local_elements);
       cgh.parallel_for<detail::workgroup_kernel<Scalar, Domain, Dir, Mem, LayoutIn, LayoutOut, SubgroupSize>>(
           sycl::nd_range<1>{{global_size}, {static_cast<std::size_t>(SubgroupSize * kernel_data.num_sgs_per_wg)}},
-          [=](sycl::nd_item<1> it, sycl::kernel_handler kh) PORTFFT_REQD_SUBGROUP_SIZE(SubgroupSize) {
+          [=, global_logging_config=detail::global_logging_config](sycl::nd_item<1> it, sycl::kernel_handler kh) PORTFFT_REQD_SUBGROUP_SIZE(SubgroupSize) {
             detail::global_data_struct global_data{
 #ifdef PORTFFT_LOG
-                s,
+                s, global_logging_config, 
 #endif
                 it};
             global_data.log_message_global("Running workgroup kernel");
diff --git a/src/portfft/dispatcher/workitem_dispatcher.hpp b/src/portfft/dispatcher/workitem_dispatcher.hpp
index d9a2bfaa..189a8ea0 100644
--- a/src/portfft/dispatcher/workitem_dispatcher.hpp
+++ b/src/portfft/dispatcher/workitem_dispatcher.hpp
@@ -304,10 +304,10 @@ struct committed_descriptor<Scalar, Domain>::run_kernel_struct<Dir, LayoutIn, La
       LOG_TRACE("Launching workitem kernel with global_size", global_size, "local_size", SubgroupSize * kernel_data.num_sgs_per_wg, "local memory allocation of size", local_elements);
       cgh.parallel_for<detail::workitem_kernel<Scalar, Domain, Dir, Mem, LayoutIn, LayoutOut, SubgroupSize>>(
           sycl::nd_range<1>{{global_size}, {static_cast<std::size_t>(SubgroupSize * kernel_data.num_sgs_per_wg)}},
-          [=](sycl::nd_item<1> it, sycl::kernel_handler kh) PORTFFT_REQD_SUBGROUP_SIZE(SubgroupSize) {
+          [=, global_logging_config=detail::global_logging_config](sycl::nd_item<1> it, sycl::kernel_handler kh) PORTFFT_REQD_SUBGROUP_SIZE(SubgroupSize) {
             detail::global_data_struct global_data{
 #ifdef PORTFFT_LOG
-                s,
+                s, global_logging_config, 
 #endif
                 it};
             global_data.log_message_global("Running workitem kernel");
diff --git a/test/unit_test/transfers.cpp b/test/unit_test/transfers.cpp
index 5d8cf79f..363162ca 100644
--- a/test/unit_test/transfers.cpp
+++ b/test/unit_test/transfers.cpp
@@ -76,10 +76,10 @@ void test() {
     sycl::stream s{1024 * 8, 1024, h};
 #endif
     h.parallel_for<test_transfers_kernel<Pad, BankGroupsPerPad>>(
-        sycl::nd_range<1>({wg_size}, {wg_size}), [=](sycl::nd_item<1> it) {
+        sycl::nd_range<1>({wg_size}, {wg_size}), [=, global_logging_config=detail::global_logging_config](sycl::nd_item<1> it) {
           detail::global_data_struct global_data{
 #ifdef PORTFFT_LOG
-              s,
+              s, global_logging_config,
 #endif
               it};
           portfft::Idx local_id = static_cast<portfft::Idx>(it.get_group().get_local_linear_id());

From d58b40c6589c5df4e26bd12f34be3c4c1f88d808 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Tadej=20Ciglari=C4=8D?= <tadej.ciglaric@codeplay.com>
Date: Mon, 29 Jan 2024 12:14:37 +0100
Subject: [PATCH 3/9] added warnings

---
 CMakeLists.txt                                | 16 +++++---
 src/portfft/common/global.hpp                 | 40 +++++++++++++------
 src/portfft/common/logging.hpp                | 36 +++++++++++++----
 src/portfft/defines.hpp                       |  3 +-
 src/portfft/descriptor.hpp                    |  5 ++-
 .../dispatcher/subgroup_dispatcher.hpp        | 10 +++--
 .../dispatcher/workgroup_dispatcher.hpp       | 10 +++--
 .../dispatcher/workitem_dispatcher.hpp        | 10 +++--
 test/common/reference_data_wrangler.hpp       |  3 +-
 test/unit_test/transfers.cpp                  | 10 +++--
 10 files changed, 101 insertions(+), 42 deletions(-)

diff --git a/CMakeLists.txt b/CMakeLists.txt
index fb4af632..7d1f3e47 100644
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -49,6 +49,7 @@ option(PORTFFT_CLANG_TIDY_AUTOFIX "Attempt to fix defects found by clang-tidy" O
 option(PORTFFT_LOG_DUMPS "Whether to enable logging of data dumps" OFF)
 option(PORTFFT_LOG_TRANSFERS "Whether to enable logging of memory transfers" OFF)
 option(PORTFFT_LOG_TRACE "Whether to enable tracing of function calls" OFF)
+option(PORTFFT_LOG_WARNING "Whether to enable logging of warnings" ON)
 set(PORTFFT_REGISTERS_PER_WI 128 CACHE STRING "How many 32b registers can be allocated per work item on the target device")
 set(PORTFFT_SUBGROUP_SIZES 32 CACHE STRING "Comma separated list of subgroup sizes to compile for. The first size supported by the device will be used.")
 set(PORTFFT_VEC_LOAD_BYTES 16 CACHE STRING "Number of consecutive bytes each work item should load at once.")
@@ -92,21 +93,24 @@ if(${PORTFFT_ENABLE_OOP_BUILDS})
   target_compile_definitions(portfft INTERFACE PORTFFT_ENABLE_OOP_BUILDS)
 endif()
 
-set(PORTFFT_LOG OFF)
+set(PORTFFT_KERNEL_LOG OFF)
 if(${PORTFFT_LOG_DUMPS})
   target_compile_definitions(portfft INTERFACE PORTFFT_LOG_DUMPS)
-  set(PORTFFT_LOG ON)
+  set(PORTFFT_KERNEL_LOG ON)
 endif()
 if(${PORTFFT_LOG_TRANSFERS})
   target_compile_definitions(portfft INTERFACE PORTFFT_LOG_TRANSFERS)
-  set(PORTFFT_LOG ON)
+  set(PORTFFT_KERNEL_LOG ON)
 endif()
 if(${PORTFFT_LOG_TRACE})
   target_compile_definitions(portfft INTERFACE PORTFFT_LOG_TRACE)
-  set(PORTFFT_LOG ON)
+  set(PORTFFT_KERNEL_LOG ON)
 endif()
-if(${PORTFFT_LOG})
-  target_compile_definitions(portfft INTERFACE PORTFFT_LOG)
+if(${PORTFFT_LOG_WARNING})
+  target_compile_definitions(portfft INTERFACE PORTFFT_LOG_WARNING)
+endif()
+if(${PORTFFT_KERNEL_LOG})
+  target_compile_definitions(portfft INTERFACE PORTFFT_KERNEL_LOG)
 endif()
 
 target_compile_options(portfft INTERFACE -fgpu-inline-threshold=1000000)
diff --git a/src/portfft/common/global.hpp b/src/portfft/common/global.hpp
index f1375eed..87fa6e21 100644
--- a/src/portfft/common/global.hpp
+++ b/src/portfft/common/global.hpp
@@ -211,15 +211,19 @@ void launch_kernel(sycl::accessor<const Scalar, 1, sycl::access::mode::read>& in
                    sycl::handler& cgh) {
   LOG_FUNCTION_ENTRY();
   auto [global_range, local_range] = launch_params;
-#ifdef PORTFFT_LOG
+#ifdef PORTFFT_KERNEL_LOG
   sycl::stream s{1024 * 16, 1024, cgh};
 #endif
   LOG_TRACE("Launching kernel for global implementation with global_size", global_range[0], "local_size", local_range[0]);
   cgh.parallel_for<global_kernel<Scalar, Domain, Dir, memory::BUFFER, LayoutIn, LayoutOut, SubgroupSize>>(
       sycl::nd_range<1>(global_range, local_range),
-      [=, global_logging_config=detail::global_logging_config](sycl::nd_item<1> it, sycl::kernel_handler kh) PORTFFT_REQD_SUBGROUP_SIZE(SubgroupSize) {
+      [=
+#ifdef PORTFFT_KERNEL_LOG
+      , global_logging_config=detail::global_logging_config
+#endif
+](sycl::nd_item<1> it, sycl::kernel_handler kh) PORTFFT_REQD_SUBGROUP_SIZE(SubgroupSize) {
         detail::global_data_struct global_data{
-#ifdef PORTFFT_LOG
+#ifdef PORTFFT_KERNEL_LOG
             s, global_logging_config, 
 #endif
             it};
@@ -267,16 +271,20 @@ void launch_kernel(const Scalar* input, Scalar* output, const Scalar* input_imag
                    IdxGlobal input_batch_offset, std::pair<sycl::range<1>, sycl::range<1>> launch_params,
                    sycl::handler& cgh) {
   LOG_FUNCTION_ENTRY();
-#ifdef PORTFFT_LOG
+#ifdef PORTFFT_KERNEL_LOG
   sycl::stream s{1024 * 16 * 16, 1024, cgh};
 #endif
   auto [global_range, local_range] = launch_params;
   LOG_TRACE("Launching kernel for global implementation with global_size", global_range[0], "local_size", local_range[0]);
   cgh.parallel_for<global_kernel<Scalar, Domain, Dir, memory::USM, LayoutIn, LayoutOut, SubgroupSize>>(
       sycl::nd_range<1>(global_range, local_range),
-      [=, global_logging_config=detail::global_logging_config](sycl::nd_item<1> it, sycl::kernel_handler kh) PORTFFT_REQD_SUBGROUP_SIZE(SubgroupSize) {
+      [=
+#ifdef PORTFFT_KERNEL_LOG
+      , global_logging_config=detail::global_logging_config
+#endif
+](sycl::nd_item<1> it, sycl::kernel_handler kh) PORTFFT_REQD_SUBGROUP_SIZE(SubgroupSize) {
         detail::global_data_struct global_data{
-#ifdef PORTFFT_LOG
+#ifdef PORTFFT_KERNEL_LOG
             s, global_logging_config, 
 #endif
             it};
@@ -309,7 +317,7 @@ static void dispatch_transpose_kernel_impl(const Scalar* input,
                                            const IdxGlobal* inner_batches, const IdxGlobal* inclusive_scan,
                                            IdxGlobal output_offset, IdxGlobal lda, IdxGlobal ldb, sycl::handler& cgh) {
   LOG_FUNCTION_ENTRY();
-#ifdef PORTFFT_LOG
+#ifdef PORTFFT_KERNEL_LOG
   sycl::stream s{1024 * 16, 1024, cgh};
 #endif
   std::size_t lda_rounded = detail::round_up_to_multiple(static_cast<std::size_t>(lda), static_cast<std::size_t>(16));
@@ -317,9 +325,13 @@ static void dispatch_transpose_kernel_impl(const Scalar* input,
   LOG_TRACE("Launching transpose kernel with global_size", lda_rounded, ldb_rounded, "local_size", 16, 16);
   cgh.parallel_for<detail::transpose_kernel<Scalar, memory::BUFFER>>(
       sycl::nd_range<2>({lda_rounded, ldb_rounded}, {16, 16}),
-      [=, global_logging_config=detail::global_logging_config](sycl::nd_item<2> it, sycl::kernel_handler kh) {
+      [=
+#ifdef PORTFFT_KERNEL_LOG
+      , global_logging_config=detail::global_logging_config
+#endif
+](sycl::nd_item<2> it, sycl::kernel_handler kh) {
         detail::global_data_struct global_data{
-#ifdef PORTFFT_LOG
+#ifdef PORTFFT_KERNEL_LOG
             s, global_logging_config, 
 #endif
             it};
@@ -364,7 +376,7 @@ static void dispatch_transpose_kernel_impl(const Scalar* input, Scalar* output,
                                            const IdxGlobal* inclusive_scan, IdxGlobal output_offset, IdxGlobal lda,
                                            IdxGlobal ldb, sycl::handler& cgh) {
   LOG_FUNCTION_ENTRY();
-#ifdef PORTFFT_LOG
+#ifdef PORTFFT_KERNEL_LOG
   sycl::stream s{1024 * 16 * 16, 1024, cgh};
 #endif
   std::size_t lda_rounded = detail::round_up_to_multiple(static_cast<std::size_t>(lda), static_cast<std::size_t>(16));
@@ -372,9 +384,13 @@ static void dispatch_transpose_kernel_impl(const Scalar* input, Scalar* output,
   LOG_TRACE("Launching transpose kernel with global_size", lda_rounded, ldb_rounded, "local_size", 16, 16);
   cgh.parallel_for<detail::transpose_kernel<Scalar, memory::USM>>(
       sycl::nd_range<2>({lda_rounded, ldb_rounded}, {16, 16}),
-      [=, global_logging_config=detail::global_logging_config](sycl::nd_item<2> it, sycl::kernel_handler kh) {
+      [=
+#ifdef PORTFFT_KERNEL_LOG
+      , global_logging_config=detail::global_logging_config
+#endif
+](sycl::nd_item<2> it, sycl::kernel_handler kh) {
         detail::global_data_struct global_data{
-#ifdef PORTFFT_LOG
+#ifdef PORTFFT_KERNEL_LOG
             s, global_logging_config, 
 #endif
             it};
diff --git a/src/portfft/common/logging.hpp b/src/portfft/common/logging.hpp
index a9cd2f90..9a03157d 100644
--- a/src/portfft/common/logging.hpp
+++ b/src/portfft/common/logging.hpp
@@ -80,7 +80,7 @@ const logging_config global_logging_config;
  */
 template <Idx Dim = 1>
 struct global_data_struct {
-#ifdef PORTFFT_LOG
+#ifdef PORTFFT_KERNEL_LOG
   sycl::stream s;
   logging_config global_logging_config;
 #endif
@@ -94,12 +94,12 @@ struct global_data_struct {
    * @param it nd_item of the kernel
    */
   global_data_struct(
-#ifdef PORTFFT_LOG
+#ifdef PORTFFT_KERNEL_LOG
       sycl::stream s, logging_config global_logging_config,
 #endif
       sycl::nd_item<Dim> it)
       :
-#ifdef PORTFFT_LOG
+#ifdef PORTFFT_KERNEL_LOG
         s(s << sycl::setprecision(3)), global_logging_config(global_logging_config),
 #endif
         it(it),
@@ -119,7 +119,7 @@ struct global_data_struct {
     }
   }
 
-#ifdef PORTFFT_LOG
+#ifdef PORTFFT_KERNEL_LOG
   /**
    * Logs ids of workitem, subgroup and workgroup.
    */
@@ -423,7 +423,7 @@ PORTFFT_INLINE void dump_device([[maybe_unused]] sycl::queue& q, [[maybe_unused]
 }
 
   /**
-   * Logs a message. Can log multiple objects/strings. They will be separated by spaces.
+   * Logs a trace. Can log multiple objects/strings. They will be separated by spaces.
    *
    * Does nothing if logging of traces is not enabled (PORTFFT_LOG_TRACE is not defined).
    *
@@ -431,7 +431,7 @@ PORTFFT_INLINE void dump_device([[maybe_unused]] sycl::queue& q, [[maybe_unused]
    * @param messages objects to log
    */
   template <typename... Ts>
-  PORTFFT_INLINE void log_message([[maybe_unused]] Ts... messages) {
+  PORTFFT_INLINE void log_trace([[maybe_unused]] Ts... messages) {
 #ifdef PORTFFT_LOG_TRACE
     if(global_logging_config.log_trace){
       log_message_impl(messages...);
@@ -439,13 +439,33 @@ PORTFFT_INLINE void dump_device([[maybe_unused]] sycl::queue& q, [[maybe_unused]
 #endif
   }
 
+  /**
+   * Logs a warning. Can log multiple objects/strings. They will be separated by spaces.
+   *
+   * Does nothing if logging of warnings is not enabled (PORTFFT_LOG_WARNING is not defined).
+   *
+   * @tparam Ts types of the objects to log
+   * @param messages objects to log
+   */
+  template <typename... Ts>
+  PORTFFT_INLINE void log_warning([[maybe_unused]] Ts... messages) {
+#ifdef PORTFFT_LOG_WARNING
+    if(global_logging_config.log_warnings){
+      log_message_impl("WARNING:", messages...);
+    }
+#endif
+  }
+
 #define LOGGING_LOCATION_INFORMATION __FILE__ ", line", __LINE__, "- in", __FUNCTION__, ":"
 
 #define LOG_FUNCTION_ENTRY() \
-  detail::log_message(LOGGING_LOCATION_INFORMATION, "entered")
+  portfft::detail::log_trace(LOGGING_LOCATION_INFORMATION, "entered")
 
 #define LOG_TRACE(...) \
-  detail::log_message(LOGGING_LOCATION_INFORMATION, __VA_ARGS__)
+  portfft::detail::log_trace(LOGGING_LOCATION_INFORMATION, __VA_ARGS__)
+
+#define LOG_WARNING(...) \
+  portfft::detail::log_warning(LOGGING_LOCATION_INFORMATION, __VA_ARGS__)
 
 };  // namespace portfft::detail
 
diff --git a/src/portfft/defines.hpp b/src/portfft/defines.hpp
index 756bffdf..9fcd41fd 100644
--- a/src/portfft/defines.hpp
+++ b/src/portfft/defines.hpp
@@ -23,7 +23,8 @@
 
 #include <cstdint>
 
-#ifdef PORTFFT_LOG
+#ifdef PORTFFT_KERNEL_LOG
+// to avoid extremely long compile times - logging from kernel kills performance anyway
 #define PORTFFT_INLINE __attribute__((noinline))
 #else
 #define PORTFFT_INLINE __attribute__((always_inline))
diff --git a/src/portfft/descriptor.hpp b/src/portfft/descriptor.hpp
index d8b77585..60208626 100644
--- a/src/portfft/descriptor.hpp
+++ b/src/portfft/descriptor.hpp
@@ -571,11 +571,12 @@ class committed_descriptor {
                                detail::apply_scale_factor::APPLIED, level);
           }
           try {
+            LOG_TRACE("Building kernel bundle with subgroup size", SubgroupSize);
             result.emplace_back(sycl::build(in_bundle), factors, params.lengths[kernel_num], SubgroupSize,
                                 PORTFFT_SGS_IN_WG, std::shared_ptr<Scalar>(), level);
+            LOG_TRACE("Kernel bundle build complete.");
           } catch (std::exception& e) {
-            std::cerr << "Build for subgroup size " << SubgroupSize << " failed with message:\n"
-                      << e.what() << std::endl;
+            LOG_WARNING("Build for subgroup size", SubgroupSize, "failed with message:\n", e.what());
             is_compatible = false;
             break;
           }
diff --git a/src/portfft/dispatcher/subgroup_dispatcher.hpp b/src/portfft/dispatcher/subgroup_dispatcher.hpp
index 754b9b1a..ecfc44c8 100644
--- a/src/portfft/dispatcher/subgroup_dispatcher.hpp
+++ b/src/portfft/dispatcher/subgroup_dispatcher.hpp
@@ -634,15 +634,19 @@ struct committed_descriptor<Scalar, Domain>::run_kernel_struct<Dir, LayoutIn, La
       auto out_imag_acc_or_usm = detail::get_access(out_imag, cgh);
       sycl::local_accessor<Scalar, 1> loc(local_elements, cgh);
       sycl::local_accessor<Scalar, 1> loc_twiddles(twiddle_elements, cgh);
-#ifdef PORTFFT_LOG
+#ifdef PORTFFT_KERNEL_LOG
       sycl::stream s{1024 * 16 * 16, 1024 * 8, cgh};
 #endif
       LOG_TRACE("Launching subgroup kernel with global_size", global_size, "local_size", SubgroupSize * kernel_data.num_sgs_per_wg, "local memory allocation of size", local_elements, "local memory allocation for twiddles of size", twiddle_elements);
       cgh.parallel_for<detail::subgroup_kernel<Scalar, Domain, Dir, Mem, LayoutIn, LayoutOut, SubgroupSize>>(
           sycl::nd_range<1>{{global_size}, {static_cast<std::size_t>(SubgroupSize * kernel_data.num_sgs_per_wg)}},
-          [=, global_logging_config=detail::global_logging_config](sycl::nd_item<1> it, sycl::kernel_handler kh) PORTFFT_REQD_SUBGROUP_SIZE(SubgroupSize) {
+          [=
+#ifdef PORTFFT_KERNEL_LOG
+      , global_logging_config=detail::global_logging_config
+#endif
+](sycl::nd_item<1> it, sycl::kernel_handler kh) PORTFFT_REQD_SUBGROUP_SIZE(SubgroupSize) {
             detail::global_data_struct global_data{
-#ifdef PORTFFT_LOG
+#ifdef PORTFFT_KERNEL_LOG
                 s, global_logging_config, 
 #endif
                 it};
diff --git a/src/portfft/dispatcher/workgroup_dispatcher.hpp b/src/portfft/dispatcher/workgroup_dispatcher.hpp
index 40f4d059..cd640de2 100644
--- a/src/portfft/dispatcher/workgroup_dispatcher.hpp
+++ b/src/portfft/dispatcher/workgroup_dispatcher.hpp
@@ -311,15 +311,19 @@ struct committed_descriptor<Scalar, Domain>::run_kernel_struct<Dir, LayoutIn, La
       auto in_imag_acc_or_usm = detail::get_access(in_imag, cgh);
       auto out_imag_acc_or_usm = detail::get_access(out_imag, cgh);
       sycl::local_accessor<Scalar, 1> loc(local_elements, cgh);
-#ifdef PORTFFT_LOG
+#ifdef PORTFFT_KERNEL_LOG
       sycl::stream s{1024 * 16 * 8 * 2, 1024, cgh};
 #endif
       LOG_TRACE("Launching workgroup kernel with global_size", global_size, "local_size", SubgroupSize * kernel_data.num_sgs_per_wg, "local memory allocation of size", local_elements);
       cgh.parallel_for<detail::workgroup_kernel<Scalar, Domain, Dir, Mem, LayoutIn, LayoutOut, SubgroupSize>>(
           sycl::nd_range<1>{{global_size}, {static_cast<std::size_t>(SubgroupSize * kernel_data.num_sgs_per_wg)}},
-          [=, global_logging_config=detail::global_logging_config](sycl::nd_item<1> it, sycl::kernel_handler kh) PORTFFT_REQD_SUBGROUP_SIZE(SubgroupSize) {
+          [=
+#ifdef PORTFFT_KERNEL_LOG
+      , global_logging_config=detail::global_logging_config
+#endif
+](sycl::nd_item<1> it, sycl::kernel_handler kh) PORTFFT_REQD_SUBGROUP_SIZE(SubgroupSize) {
             detail::global_data_struct global_data{
-#ifdef PORTFFT_LOG
+#ifdef PORTFFT_KERNEL_LOG
                 s, global_logging_config, 
 #endif
                 it};
diff --git a/src/portfft/dispatcher/workitem_dispatcher.hpp b/src/portfft/dispatcher/workitem_dispatcher.hpp
index 189a8ea0..70f9816a 100644
--- a/src/portfft/dispatcher/workitem_dispatcher.hpp
+++ b/src/portfft/dispatcher/workitem_dispatcher.hpp
@@ -298,15 +298,19 @@ struct committed_descriptor<Scalar, Domain>::run_kernel_struct<Dir, LayoutIn, La
       auto in_imag_acc_or_usm = detail::get_access(in_imag, cgh);
       auto out_imag_acc_or_usm = detail::get_access(out_imag, cgh);
       sycl::local_accessor<Scalar, 1> loc(static_cast<std::size_t>(local_elements), cgh);
-#ifdef PORTFFT_LOG
+#ifdef PORTFFT_KERNEL_LOG
       sycl::stream s{1024 * 16 * 8, 1024, cgh};
 #endif
       LOG_TRACE("Launching workitem kernel with global_size", global_size, "local_size", SubgroupSize * kernel_data.num_sgs_per_wg, "local memory allocation of size", local_elements);
       cgh.parallel_for<detail::workitem_kernel<Scalar, Domain, Dir, Mem, LayoutIn, LayoutOut, SubgroupSize>>(
           sycl::nd_range<1>{{global_size}, {static_cast<std::size_t>(SubgroupSize * kernel_data.num_sgs_per_wg)}},
-          [=, global_logging_config=detail::global_logging_config](sycl::nd_item<1> it, sycl::kernel_handler kh) PORTFFT_REQD_SUBGROUP_SIZE(SubgroupSize) {
+          [=
+#ifdef PORTFFT_KERNEL_LOG
+      , global_logging_config=detail::global_logging_config
+#endif
+](sycl::nd_item<1> it, sycl::kernel_handler kh) PORTFFT_REQD_SUBGROUP_SIZE(SubgroupSize) {
             detail::global_data_struct global_data{
-#ifdef PORTFFT_LOG
+#ifdef PORTFFT_KERNEL_LOG
                 s, global_logging_config, 
 #endif
                 it};
diff --git a/test/common/reference_data_wrangler.hpp b/test/common/reference_data_wrangler.hpp
index 58da9888..f63461d9 100644
--- a/test/common/reference_data_wrangler.hpp
+++ b/test/common/reference_data_wrangler.hpp
@@ -323,7 +323,8 @@ void verify_dft(const portfft::descriptor<Scalar, Domain>& desc, const std::vect
     Scalar L2_rel_err = L2_err / L2_norm;
     max_L2_rel_err = std::max(max_L2_rel_err, L2_rel_err);
   }
-  std::cout << "Max (across batches) relative L2 error: " << max_L2_rel_err << std::endl;
+  //set to warning to make it print by default
+  LOG_WARNING("Max (across batches) relative L2 error: ", max_L2_rel_err);
 
   for (std::size_t t = 0; t < desc.number_of_transforms; ++t) {
     const ElemT* this_batch_ref = ref_output.data() + dft_len * t + dft_offset;
diff --git a/test/unit_test/transfers.cpp b/test/unit_test/transfers.cpp
index 363162ca..cc8b7b87 100644
--- a/test/unit_test/transfers.cpp
+++ b/test/unit_test/transfers.cpp
@@ -72,13 +72,17 @@ void test() {
   q.submit([&](sycl::handler& h) {
     sycl::local_accessor<ftype, 1> loc1(padded_local_size + 2 * N_sentinel_values, h);
     sycl::local_accessor<ftype, 1> loc2(padded_local_size + 2 * N_sentinel_values, h);
-#ifdef PORTFFT_LOG
+#ifdef PORTFFT_KERNEL_LOG
     sycl::stream s{1024 * 8, 1024, h};
 #endif
     h.parallel_for<test_transfers_kernel<Pad, BankGroupsPerPad>>(
-        sycl::nd_range<1>({wg_size}, {wg_size}), [=, global_logging_config=detail::global_logging_config](sycl::nd_item<1> it) {
+        sycl::nd_range<1>({wg_size}, {wg_size}), [=
+#ifdef PORTFFT_KERNEL_LOG
+        , global_logging_config=detail::global_logging_config
+#endif
+        ](sycl::nd_item<1> it) {
           detail::global_data_struct global_data{
-#ifdef PORTFFT_LOG
+#ifdef PORTFFT_KERNEL_LOG
               s, global_logging_config,
 #endif
               it};

From d236de721282aa38a66da551417bd40edff24884 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Tadej=20Ciglari=C4=8D?= <tadej.ciglaric@codeplay.com>
Date: Mon, 29 Jan 2024 11:15:36 +0000
Subject: [PATCH 4/9] format

---
 src/portfft/common/global.hpp                 |  48 +++++----
 src/portfft/common/logging.hpp                | 100 +++++++++---------
 src/portfft/descriptor.hpp                    |   8 +-
 src/portfft/dispatcher/global_dispatcher.hpp  |   5 +-
 .../dispatcher/subgroup_dispatcher.hpp        |  17 +--
 .../dispatcher/workgroup_dispatcher.hpp       |  19 ++--
 .../dispatcher/workitem_dispatcher.hpp        |  10 +-
 test/common/reference_data_wrangler.hpp       |   2 +-
 test/unit_test/transfers.cpp                  |   5 +-
 9 files changed, 115 insertions(+), 99 deletions(-)

diff --git a/src/portfft/common/global.hpp b/src/portfft/common/global.hpp
index 87fa6e21..03a8cd66 100644
--- a/src/portfft/common/global.hpp
+++ b/src/portfft/common/global.hpp
@@ -214,17 +214,18 @@ void launch_kernel(sycl::accessor<const Scalar, 1, sycl::access::mode::read>& in
 #ifdef PORTFFT_KERNEL_LOG
   sycl::stream s{1024 * 16, 1024, cgh};
 #endif
-  LOG_TRACE("Launching kernel for global implementation with global_size", global_range[0], "local_size", local_range[0]);
+  LOG_TRACE("Launching kernel for global implementation with global_size", global_range[0], "local_size",
+            local_range[0]);
   cgh.parallel_for<global_kernel<Scalar, Domain, Dir, memory::BUFFER, LayoutIn, LayoutOut, SubgroupSize>>(
-      sycl::nd_range<1>(global_range, local_range),
-      [=
+      sycl::nd_range<1>(global_range, local_range), [=
 #ifdef PORTFFT_KERNEL_LOG
-      , global_logging_config=detail::global_logging_config
+                                                         ,
+                                                     global_logging_config = detail::global_logging_config
 #endif
-](sycl::nd_item<1> it, sycl::kernel_handler kh) PORTFFT_REQD_SUBGROUP_SIZE(SubgroupSize) {
+  ](sycl::nd_item<1> it, sycl::kernel_handler kh) PORTFFT_REQD_SUBGROUP_SIZE(SubgroupSize) {
         detail::global_data_struct global_data{
 #ifdef PORTFFT_KERNEL_LOG
-            s, global_logging_config, 
+            s, global_logging_config,
 #endif
             it};
         dispatch_level<Dir, Scalar, LayoutIn, LayoutOut, SubgroupSize>(
@@ -275,17 +276,18 @@ void launch_kernel(const Scalar* input, Scalar* output, const Scalar* input_imag
   sycl::stream s{1024 * 16 * 16, 1024, cgh};
 #endif
   auto [global_range, local_range] = launch_params;
-  LOG_TRACE("Launching kernel for global implementation with global_size", global_range[0], "local_size", local_range[0]);
+  LOG_TRACE("Launching kernel for global implementation with global_size", global_range[0], "local_size",
+            local_range[0]);
   cgh.parallel_for<global_kernel<Scalar, Domain, Dir, memory::USM, LayoutIn, LayoutOut, SubgroupSize>>(
-      sycl::nd_range<1>(global_range, local_range),
-      [=
+      sycl::nd_range<1>(global_range, local_range), [=
 #ifdef PORTFFT_KERNEL_LOG
-      , global_logging_config=detail::global_logging_config
+                                                         ,
+                                                     global_logging_config = detail::global_logging_config
 #endif
-](sycl::nd_item<1> it, sycl::kernel_handler kh) PORTFFT_REQD_SUBGROUP_SIZE(SubgroupSize) {
+  ](sycl::nd_item<1> it, sycl::kernel_handler kh) PORTFFT_REQD_SUBGROUP_SIZE(SubgroupSize) {
         detail::global_data_struct global_data{
 #ifdef PORTFFT_KERNEL_LOG
-            s, global_logging_config, 
+            s, global_logging_config,
 #endif
             it};
         dispatch_level<Dir, Scalar, LayoutIn, LayoutOut, SubgroupSize>(
@@ -324,15 +326,15 @@ static void dispatch_transpose_kernel_impl(const Scalar* input,
   std::size_t ldb_rounded = detail::round_up_to_multiple(static_cast<std::size_t>(ldb), static_cast<std::size_t>(16));
   LOG_TRACE("Launching transpose kernel with global_size", lda_rounded, ldb_rounded, "local_size", 16, 16);
   cgh.parallel_for<detail::transpose_kernel<Scalar, memory::BUFFER>>(
-      sycl::nd_range<2>({lda_rounded, ldb_rounded}, {16, 16}),
-      [=
+      sycl::nd_range<2>({lda_rounded, ldb_rounded}, {16, 16}), [=
 #ifdef PORTFFT_KERNEL_LOG
-      , global_logging_config=detail::global_logging_config
+                                                                    ,
+                                                                global_logging_config = detail::global_logging_config
 #endif
-](sycl::nd_item<2> it, sycl::kernel_handler kh) {
+  ](sycl::nd_item<2> it, sycl::kernel_handler kh) {
         detail::global_data_struct global_data{
 #ifdef PORTFFT_KERNEL_LOG
-            s, global_logging_config, 
+            s, global_logging_config,
 #endif
             it};
         global_data.log_message_global("entering transpose kernel - buffer impl");
@@ -383,15 +385,15 @@ static void dispatch_transpose_kernel_impl(const Scalar* input, Scalar* output,
   std::size_t ldb_rounded = detail::round_up_to_multiple(static_cast<std::size_t>(ldb), static_cast<std::size_t>(16));
   LOG_TRACE("Launching transpose kernel with global_size", lda_rounded, ldb_rounded, "local_size", 16, 16);
   cgh.parallel_for<detail::transpose_kernel<Scalar, memory::USM>>(
-      sycl::nd_range<2>({lda_rounded, ldb_rounded}, {16, 16}),
-      [=
+      sycl::nd_range<2>({lda_rounded, ldb_rounded}, {16, 16}), [=
 #ifdef PORTFFT_KERNEL_LOG
-      , global_logging_config=detail::global_logging_config
+                                                                    ,
+                                                                global_logging_config = detail::global_logging_config
 #endif
-](sycl::nd_item<2> it, sycl::kernel_handler kh) {
+  ](sycl::nd_item<2> it, sycl::kernel_handler kh) {
         detail::global_data_struct global_data{
 #ifdef PORTFFT_KERNEL_LOG
-            s, global_logging_config, 
+            s, global_logging_config,
 #endif
             it};
         global_data.log_message_global("entering transpose kernel - USM impl");
@@ -440,7 +442,7 @@ sycl::event transpose_level(const typename committed_descriptor<Scalar, Domain>:
                             const Scalar* input, TOut output, const IdxGlobal* factors_triple, IdxGlobal committed_size,
                             Idx num_batches_in_l2, IdxGlobal n_transforms, IdxGlobal batch_start, Idx total_factors,
                             IdxGlobal output_offset, sycl::queue& queue, const std::vector<sycl::event>& events,
-                            complex_storage storage) {     
+                            complex_storage storage) {
   LOG_FUNCTION_ENTRY();
   const IdxGlobal vec_size = storage == complex_storage::INTERLEAVED_COMPLEX ? 2 : 1;
   std::vector<sycl::event> transpose_events;
diff --git a/src/portfft/common/logging.hpp b/src/portfft/common/logging.hpp
index 9a03157d..8da7c040 100644
--- a/src/portfft/common/logging.hpp
+++ b/src/portfft/common/logging.hpp
@@ -28,44 +28,44 @@
 
 namespace portfft::detail {
 
-struct logging_config{
+struct logging_config {
   bool log_transfers = true;
   bool log_dumps = true;
   bool log_trace = true;
   bool log_warnings = true;
-  logging_config(){
+  logging_config() {
     char* log_transfers_str = getenv("PORTFFT_LOG_TRANSFERS");
-    if(log_transfers_str != nullptr){
+    if (log_transfers_str != nullptr) {
       log_transfers = static_cast<bool>(atoi(log_transfers_str));
 #ifndef PORTFFT_LOG_TRANSFERS
-      if(log_transfers){
+      if (log_transfers) {
         std::cerr << "Can not enable logging of transfers if it is disabled at compile time." << std::endl;
       }
 #endif
     }
     char* log_dumps_str = getenv("PORTFFT_LOG_DUMPS");
-    if(log_dumps_str != nullptr){
+    if (log_dumps_str != nullptr) {
       log_dumps = static_cast<bool>(atoi(log_dumps_str));
 #ifndef PORTFFT_LOG_DUMPS
-      if(log_dumps){
+      if (log_dumps) {
         std::cerr << "Can not enable logging of dumps if it is disabled at compile time." << std::endl;
       }
 #endif
     }
     char* log_trace_str = getenv("PORTFFT_LOG_TRACE");
-    if(log_trace_str != nullptr){
+    if (log_trace_str != nullptr) {
       log_trace = static_cast<bool>(atoi(log_trace_str));
 #ifndef PORTFFT_LOG_TRACE
-      if(log_trace){
+      if (log_trace) {
         std::cerr << "Can not enable logging of traces if it is disabled at compile time." << std::endl;
       }
 #endif
     }
     char* log_warnings_str = getenv("PORTFFT_LOG_WARNINGS");
-    if(log_warnings_str != nullptr){
+    if (log_warnings_str != nullptr) {
       log_warnings = static_cast<bool>(atoi(log_warnings_str));
 #ifndef PORTFFT_LOG_WARNINGS
-      if(log_warnings){
+      if (log_warnings) {
         std::cerr << "Can not enable logging of warnings if it is disabled at compile time." << std::endl;
       }
 #endif
@@ -100,7 +100,8 @@ struct global_data_struct {
       sycl::nd_item<Dim> it)
       :
 #ifdef PORTFFT_KERNEL_LOG
-        s(s << sycl::setprecision(3)), global_logging_config(global_logging_config),
+        s(s << sycl::setprecision(3)),
+        global_logging_config(global_logging_config),
 #endif
         it(it),
         sg(it.get_sub_group()) {
@@ -197,7 +198,7 @@ struct global_data_struct {
   PORTFFT_INLINE void log_dump_private([[maybe_unused]] const char* message, [[maybe_unused]] T* ptr,
                                        [[maybe_unused]] Idx num) {
 #ifdef PORTFFT_LOG_DUMPS
-    if (global_logging_config.log_dumps){
+    if (global_logging_config.log_dumps) {
       log_ids();
       s << message << " ";
       if (num) {
@@ -222,7 +223,7 @@ struct global_data_struct {
   template <typename... Ts>
   PORTFFT_INLINE void log_message([[maybe_unused]] Ts... messages) {
 #ifdef PORTFFT_LOG_TRANSFERS
-    if (global_logging_config.log_transfers){
+    if (global_logging_config.log_transfers) {
       log_ids();
       log_message_impl(messages...);
     }
@@ -343,7 +344,7 @@ __attribute__((always_inline)) inline void output(T object) {
 template <typename T>
 __attribute__((always_inline)) inline void output(const std::vector<T>& object) {
   std::cout << "(";
-  for(const T& element : object){
+  for (const T& element : object) {
     output(element);
     std::cout << ", ";
   }
@@ -389,7 +390,7 @@ template <typename T>
 PORTFFT_INLINE void dump_host([[maybe_unused]] const char* msg, [[maybe_unused]] T* host_ptr,
                               [[maybe_unused]] std::size_t size) {
 #ifdef PORTFFT_LOG_DUMPS
-  if(global_logging_config.log_dumps){
+  if (global_logging_config.log_dumps) {
     std::cout << msg << " ";
     for (std::size_t i = 0; i < size; i++) {
       std::cout << host_ptr[i] << ", ";
@@ -414,58 +415,55 @@ PORTFFT_INLINE void dump_device([[maybe_unused]] sycl::queue& q, [[maybe_unused]
                                 [[maybe_unused]] T* dev_ptr, [[maybe_unused]] std::size_t size,
                                 [[maybe_unused]] const std::vector<sycl::event>& dependencies = {}) {
 #ifdef PORTFFT_LOG_DUMPS
-  if(global_logging_config.log_dumps){
-    std::vector<T> tmp(size); 
+  if (global_logging_config.log_dumps) {
+    std::vector<T> tmp(size);
     q.copy(dev_ptr, tmp.data(), size, dependencies).wait();
     dump_host(msg, tmp.data(), size);
   }
 #endif
 }
 
-  /**
-   * Logs a trace. Can log multiple objects/strings. They will be separated by spaces.
-   *
-   * Does nothing if logging of traces is not enabled (PORTFFT_LOG_TRACE is not defined).
-   *
-   * @tparam Ts types of the objects to log
-   * @param messages objects to log
-   */
-  template <typename... Ts>
-  PORTFFT_INLINE void log_trace([[maybe_unused]] Ts... messages) {
+/**
+ * Logs a trace. Can log multiple objects/strings. They will be separated by spaces.
+ *
+ * Does nothing if logging of traces is not enabled (PORTFFT_LOG_TRACE is not defined).
+ *
+ * @tparam Ts types of the objects to log
+ * @param messages objects to log
+ */
+template <typename... Ts>
+PORTFFT_INLINE void log_trace([[maybe_unused]] Ts... messages) {
 #ifdef PORTFFT_LOG_TRACE
-    if(global_logging_config.log_trace){
-      log_message_impl(messages...);
-    }
-#endif
+  if (global_logging_config.log_trace) {
+    log_message_impl(messages...);
   }
+#endif
+}
 
-  /**
-   * Logs a warning. Can log multiple objects/strings. They will be separated by spaces.
-   *
-   * Does nothing if logging of warnings is not enabled (PORTFFT_LOG_WARNING is not defined).
-   *
-   * @tparam Ts types of the objects to log
-   * @param messages objects to log
-   */
-  template <typename... Ts>
-  PORTFFT_INLINE void log_warning([[maybe_unused]] Ts... messages) {
+/**
+ * Logs a warning. Can log multiple objects/strings. They will be separated by spaces.
+ *
+ * Does nothing if logging of warnings is not enabled (PORTFFT_LOG_WARNING is not defined).
+ *
+ * @tparam Ts types of the objects to log
+ * @param messages objects to log
+ */
+template <typename... Ts>
+PORTFFT_INLINE void log_warning([[maybe_unused]] Ts... messages) {
 #ifdef PORTFFT_LOG_WARNING
-    if(global_logging_config.log_warnings){
-      log_message_impl("WARNING:", messages...);
-    }
-#endif
+  if (global_logging_config.log_warnings) {
+    log_message_impl("WARNING:", messages...);
   }
+#endif
+}
 
 #define LOGGING_LOCATION_INFORMATION __FILE__ ", line", __LINE__, "- in", __FUNCTION__, ":"
 
-#define LOG_FUNCTION_ENTRY() \
-  portfft::detail::log_trace(LOGGING_LOCATION_INFORMATION, "entered")
+#define LOG_FUNCTION_ENTRY() portfft::detail::log_trace(LOGGING_LOCATION_INFORMATION, "entered")
 
-#define LOG_TRACE(...) \
-  portfft::detail::log_trace(LOGGING_LOCATION_INFORMATION, __VA_ARGS__)
+#define LOG_TRACE(...) portfft::detail::log_trace(LOGGING_LOCATION_INFORMATION, __VA_ARGS__)
 
-#define LOG_WARNING(...) \
-  portfft::detail::log_warning(LOGGING_LOCATION_INFORMATION, __VA_ARGS__)
+#define LOG_WARNING(...) portfft::detail::log_warning(LOGGING_LOCATION_INFORMATION, __VA_ARGS__)
 
 };  // namespace portfft::detail
 
diff --git a/src/portfft/descriptor.hpp b/src/portfft/descriptor.hpp
index 60208626..fef15451 100644
--- a/src/portfft/descriptor.hpp
+++ b/src/portfft/descriptor.hpp
@@ -367,7 +367,8 @@ class committed_descriptor {
         // This factorization of N and M is duplicated in the dispatch logic on the device.
         // The CT and spec constant factors should match.
         ids = detail::get_ids<detail::workgroup_kernel, Scalar, Domain, SubgroupSize>();
-        LOG_TRACE("Prepared workgroup impl with factor_wi_n:", factor_wi_n, " factor_sg_n:", factor_sg_n, " factor_wi_m:", factor_wi_m, " factor_sg_m:", factor_sg_m);
+        LOG_TRACE("Prepared workgroup impl with factor_wi_n:", factor_wi_n, " factor_sg_n:", factor_sg_n,
+                  " factor_wi_m:", factor_wi_m, " factor_sg_m:", factor_sg_m);
         return {detail::level::WORKGROUP, {{detail::level::WORKGROUP, ids, factors}}};
       }
     }
@@ -409,7 +410,8 @@ class committed_descriptor {
           !PORTFFT_SLOW_SG_SHUFFLES) {
         Idx factor_sg = detail::factorize_sg(static_cast<Idx>(factor_size), SubgroupSize);
         Idx factor_wi = static_cast<Idx>(factor_size) / factor_sg;
-        LOG_TRACE("Subgroup kernel for factor:", factor_size, "with factor_wi:", factor_wi, "and factor_sg:", factor_sg);
+        LOG_TRACE("Subgroup kernel for factor:", factor_size, "with factor_wi:", factor_wi,
+                  "and factor_sg:", factor_sg);
         param_vec.emplace_back(detail::level::SUBGROUP,
                                detail::get_ids<detail::global_kernel, Scalar, Domain, SubgroupSize>(),
                                std::vector<Idx>{factor_sg, factor_wi});
@@ -1360,7 +1362,7 @@ class committed_descriptor {
                                            kernel_data.level, kernel_data.length, SubgroupSize, kernel_data.factors,
                                            kernel_data.num_sgs_per_wg) *
                                        sizeof(Scalar);
-          LOG_TRACE("Local mem required:", minimum_local_mem_required ,"B. Available: ", local_memory_size, "B.");
+          LOG_TRACE("Local mem required:", minimum_local_mem_required, "B. Available: ", local_memory_size, "B.");
           if (static_cast<Idx>(minimum_local_mem_required) > local_memory_size) {
             throw out_of_local_memory_error(
                 "Insufficient amount of local memory available: " + std::to_string(local_memory_size) +
diff --git a/src/portfft/dispatcher/global_dispatcher.hpp b/src/portfft/dispatcher/global_dispatcher.hpp
index 9ebf73fc..04ab965c 100644
--- a/src/portfft/dispatcher/global_dispatcher.hpp
+++ b/src/portfft/dispatcher/global_dispatcher.hpp
@@ -146,7 +146,8 @@ struct committed_descriptor<Scalar, Domain>::calculate_twiddles_struct::inner<de
     }
     std::vector<Scalar> host_memory(static_cast<std::size_t>(mem_required_for_twiddles));
     std::vector<Scalar> scratch_space(static_cast<std::size_t>(mem_required_for_twiddles));
-    LOG_TRACE("Allocating global memory for twiddles for workgroup implementation. Allocation size", mem_required_for_twiddles);
+    LOG_TRACE("Allocating global memory for twiddles for workgroup implementation. Allocation size",
+              mem_required_for_twiddles);
     Scalar* device_twiddles =
         sycl::malloc_device<Scalar>(static_cast<std::size_t>(mem_required_for_twiddles), desc.queue);
 
@@ -268,7 +269,7 @@ struct committed_descriptor<Scalar, Domain>::set_spec_constants_struct::inner<de
     LOG_TRACE("GlobalSpecConstLevelNum:", factor_num);
     in_bundle.template set_specialization_constant<detail::GlobalSpecConstLevelNum>(factor_num);
     if (level == detail::level::WORKITEM || level == detail::level::WORKGROUP) {
-    LOG_TRACE("SpecConstFftSize:", length_idx);
+      LOG_TRACE("SpecConstFftSize:", length_idx);
       in_bundle.template set_specialization_constant<detail::SpecConstFftSize>(length_idx);
     } else if (level == detail::level::SUBGROUP) {
       LOG_TRACE("SubgroupFactorWISpecConst:", factors[1]);
diff --git a/src/portfft/dispatcher/subgroup_dispatcher.hpp b/src/portfft/dispatcher/subgroup_dispatcher.hpp
index ecfc44c8..1128ef25 100644
--- a/src/portfft/dispatcher/subgroup_dispatcher.hpp
+++ b/src/portfft/dispatcher/subgroup_dispatcher.hpp
@@ -586,12 +586,14 @@ struct committed_descriptor<Scalar, Domain>::calculate_twiddles_struct::inner<de
     const auto& kernel_data = dimension_data.kernels.at(0);
     Idx factor_wi = kernel_data.factors[0];
     Idx factor_sg = kernel_data.factors[1];
-    LOG_TRACE("Allocating global memory for twiddles for subgroup implementation. Allocation size", kernel_data.length * 2);
+    LOG_TRACE("Allocating global memory for twiddles for subgroup implementation. Allocation size",
+              kernel_data.length * 2);
     Scalar* res = sycl::aligned_alloc_device<Scalar>(
         alignof(sycl::vec<Scalar, PORTFFT_VEC_LOAD_BYTES / sizeof(Scalar)>), kernel_data.length * 2, desc.queue);
     sycl::range<2> kernel_range({static_cast<std::size_t>(factor_sg), static_cast<std::size_t>(factor_wi)});
     desc.queue.submit([&](sycl::handler& cgh) {
-      LOG_TRACE("Launching twiddle calculation kernel for subgroup implementation with global size", factor_sg, factor_wi);
+      LOG_TRACE("Launching twiddle calculation kernel for subgroup implementation with global size", factor_sg,
+                factor_wi);
       cgh.parallel_for(kernel_range, [=](sycl::item<2> it) {
         Idx n = static_cast<Idx>(it.get_id(0));
         Idx k = static_cast<Idx>(it.get_id(1));
@@ -637,17 +639,20 @@ struct committed_descriptor<Scalar, Domain>::run_kernel_struct<Dir, LayoutIn, La
 #ifdef PORTFFT_KERNEL_LOG
       sycl::stream s{1024 * 16 * 16, 1024 * 8, cgh};
 #endif
-      LOG_TRACE("Launching subgroup kernel with global_size", global_size, "local_size", SubgroupSize * kernel_data.num_sgs_per_wg, "local memory allocation of size", local_elements, "local memory allocation for twiddles of size", twiddle_elements);
+      LOG_TRACE("Launching subgroup kernel with global_size", global_size, "local_size",
+                SubgroupSize * kernel_data.num_sgs_per_wg, "local memory allocation of size", local_elements,
+                "local memory allocation for twiddles of size", twiddle_elements);
       cgh.parallel_for<detail::subgroup_kernel<Scalar, Domain, Dir, Mem, LayoutIn, LayoutOut, SubgroupSize>>(
           sycl::nd_range<1>{{global_size}, {static_cast<std::size_t>(SubgroupSize * kernel_data.num_sgs_per_wg)}},
           [=
 #ifdef PORTFFT_KERNEL_LOG
-      , global_logging_config=detail::global_logging_config
+               ,
+           global_logging_config = detail::global_logging_config
 #endif
-](sycl::nd_item<1> it, sycl::kernel_handler kh) PORTFFT_REQD_SUBGROUP_SIZE(SubgroupSize) {
+      ](sycl::nd_item<1> it, sycl::kernel_handler kh) PORTFFT_REQD_SUBGROUP_SIZE(SubgroupSize) {
             detail::global_data_struct global_data{
 #ifdef PORTFFT_KERNEL_LOG
-                s, global_logging_config, 
+                s, global_logging_config,
 #endif
                 it};
             global_data.log_message_global("Running subgroup kernel");
diff --git a/src/portfft/dispatcher/workgroup_dispatcher.hpp b/src/portfft/dispatcher/workgroup_dispatcher.hpp
index cd640de2..e198274a 100644
--- a/src/portfft/dispatcher/workgroup_dispatcher.hpp
+++ b/src/portfft/dispatcher/workgroup_dispatcher.hpp
@@ -314,17 +314,19 @@ struct committed_descriptor<Scalar, Domain>::run_kernel_struct<Dir, LayoutIn, La
 #ifdef PORTFFT_KERNEL_LOG
       sycl::stream s{1024 * 16 * 8 * 2, 1024, cgh};
 #endif
-      LOG_TRACE("Launching workgroup kernel with global_size", global_size, "local_size", SubgroupSize * kernel_data.num_sgs_per_wg, "local memory allocation of size", local_elements);
+      LOG_TRACE("Launching workgroup kernel with global_size", global_size, "local_size",
+                SubgroupSize * kernel_data.num_sgs_per_wg, "local memory allocation of size", local_elements);
       cgh.parallel_for<detail::workgroup_kernel<Scalar, Domain, Dir, Mem, LayoutIn, LayoutOut, SubgroupSize>>(
           sycl::nd_range<1>{{global_size}, {static_cast<std::size_t>(SubgroupSize * kernel_data.num_sgs_per_wg)}},
           [=
 #ifdef PORTFFT_KERNEL_LOG
-      , global_logging_config=detail::global_logging_config
+               ,
+           global_logging_config = detail::global_logging_config
 #endif
-](sycl::nd_item<1> it, sycl::kernel_handler kh) PORTFFT_REQD_SUBGROUP_SIZE(SubgroupSize) {
+      ](sycl::nd_item<1> it, sycl::kernel_handler kh) PORTFFT_REQD_SUBGROUP_SIZE(SubgroupSize) {
             detail::global_data_struct global_data{
 #ifdef PORTFFT_KERNEL_LOG
-                s, global_logging_config, 
+                s, global_logging_config,
 #endif
                 it};
             global_data.log_message_global("Running workgroup kernel");
@@ -388,7 +390,8 @@ struct committed_descriptor<Scalar, Domain>::calculate_twiddles_struct::inner<de
         sycl::aligned_alloc_device<Scalar>(alignof(sycl::vec<Scalar, PORTFFT_VEC_LOAD_BYTES / sizeof(Scalar)>),
                                            static_cast<std::size_t>(res_size), desc.queue);
     desc.queue.submit([&](sycl::handler& cgh) {
-      LOG_TRACE("Launching twiddle calculation kernel for factor 1 of workgroup implementation with global size", factor_sg_n, factor_wi_n);
+      LOG_TRACE("Launching twiddle calculation kernel for factor 1 of workgroup implementation with global size",
+                factor_sg_n, factor_wi_n);
       cgh.parallel_for(sycl::range<2>({static_cast<std::size_t>(factor_sg_n), static_cast<std::size_t>(factor_wi_n)}),
                        [=](sycl::item<2> it) {
                          Idx n = static_cast<Idx>(it.get_id(0));
@@ -397,7 +400,8 @@ struct committed_descriptor<Scalar, Domain>::calculate_twiddles_struct::inner<de
                        });
     });
     desc.queue.submit([&](sycl::handler& cgh) {
-      LOG_TRACE("Launching twiddle calculation kernel for factor 2 of workgroup implementation with global size", factor_sg_m, factor_wi_m);
+      LOG_TRACE("Launching twiddle calculation kernel for factor 2 of workgroup implementation with global size",
+                factor_sg_m, factor_wi_m);
       cgh.parallel_for(sycl::range<2>({static_cast<std::size_t>(factor_sg_m), static_cast<std::size_t>(factor_wi_m)}),
                        [=](sycl::item<2> it) {
                          Idx n = static_cast<Idx>(it.get_id(0));
@@ -406,7 +410,8 @@ struct committed_descriptor<Scalar, Domain>::calculate_twiddles_struct::inner<de
                        });
     });
     desc.queue.submit([&](sycl::handler& cgh) {
-      LOG_TRACE("Launching twiddle calculation kernel for workgroup implementation with global size", n, factor_wi_m, factor_sg_m);
+      LOG_TRACE("Launching twiddle calculation kernel for workgroup implementation with global size", n, factor_wi_m,
+                factor_sg_m);
       cgh.parallel_for(sycl::range<3>({static_cast<std::size_t>(n), static_cast<std::size_t>(factor_wi_m),
                                        static_cast<std::size_t>(factor_sg_m)}),
                        [=](sycl::item<3> it) {
diff --git a/src/portfft/dispatcher/workitem_dispatcher.hpp b/src/portfft/dispatcher/workitem_dispatcher.hpp
index 70f9816a..76271cf8 100644
--- a/src/portfft/dispatcher/workitem_dispatcher.hpp
+++ b/src/portfft/dispatcher/workitem_dispatcher.hpp
@@ -301,17 +301,19 @@ struct committed_descriptor<Scalar, Domain>::run_kernel_struct<Dir, LayoutIn, La
 #ifdef PORTFFT_KERNEL_LOG
       sycl::stream s{1024 * 16 * 8, 1024, cgh};
 #endif
-      LOG_TRACE("Launching workitem kernel with global_size", global_size, "local_size", SubgroupSize * kernel_data.num_sgs_per_wg, "local memory allocation of size", local_elements);
+      LOG_TRACE("Launching workitem kernel with global_size", global_size, "local_size",
+                SubgroupSize * kernel_data.num_sgs_per_wg, "local memory allocation of size", local_elements);
       cgh.parallel_for<detail::workitem_kernel<Scalar, Domain, Dir, Mem, LayoutIn, LayoutOut, SubgroupSize>>(
           sycl::nd_range<1>{{global_size}, {static_cast<std::size_t>(SubgroupSize * kernel_data.num_sgs_per_wg)}},
           [=
 #ifdef PORTFFT_KERNEL_LOG
-      , global_logging_config=detail::global_logging_config
+               ,
+           global_logging_config = detail::global_logging_config
 #endif
-](sycl::nd_item<1> it, sycl::kernel_handler kh) PORTFFT_REQD_SUBGROUP_SIZE(SubgroupSize) {
+      ](sycl::nd_item<1> it, sycl::kernel_handler kh) PORTFFT_REQD_SUBGROUP_SIZE(SubgroupSize) {
             detail::global_data_struct global_data{
 #ifdef PORTFFT_KERNEL_LOG
-                s, global_logging_config, 
+                s, global_logging_config,
 #endif
                 it};
             global_data.log_message_global("Running workitem kernel");
diff --git a/test/common/reference_data_wrangler.hpp b/test/common/reference_data_wrangler.hpp
index f63461d9..0316e040 100644
--- a/test/common/reference_data_wrangler.hpp
+++ b/test/common/reference_data_wrangler.hpp
@@ -323,7 +323,7 @@ void verify_dft(const portfft::descriptor<Scalar, Domain>& desc, const std::vect
     Scalar L2_rel_err = L2_err / L2_norm;
     max_L2_rel_err = std::max(max_L2_rel_err, L2_rel_err);
   }
-  //set to warning to make it print by default
+  // set to warning to make it print by default
   LOG_WARNING("Max (across batches) relative L2 error: ", max_L2_rel_err);
 
   for (std::size_t t = 0; t < desc.number_of_transforms; ++t) {
diff --git a/test/unit_test/transfers.cpp b/test/unit_test/transfers.cpp
index cc8b7b87..1e789215 100644
--- a/test/unit_test/transfers.cpp
+++ b/test/unit_test/transfers.cpp
@@ -78,9 +78,10 @@ void test() {
     h.parallel_for<test_transfers_kernel<Pad, BankGroupsPerPad>>(
         sycl::nd_range<1>({wg_size}, {wg_size}), [=
 #ifdef PORTFFT_KERNEL_LOG
-        , global_logging_config=detail::global_logging_config
+                                                      ,
+                                                  global_logging_config = detail::global_logging_config
 #endif
-        ](sycl::nd_item<1> it) {
+    ](sycl::nd_item<1> it) {
           detail::global_data_struct global_data{
 #ifdef PORTFFT_KERNEL_LOG
               s, global_logging_config,

From dd05b8ca6b272f7e1f533ef3459b4ee71acc1564 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Tadej=20Ciglari=C4=8D?= <tadej.ciglaric@codeplay.com>
Date: Mon, 29 Jan 2024 16:01:56 +0100
Subject: [PATCH 5/9] addressed review comments

---
 CMakeLists.txt                                |  12 +-
 src/portfft/common/global.hpp                 |  20 +--
 src/portfft/common/logging.hpp                |  73 +++------
 src/portfft/descriptor.hpp                    | 148 +++++++++---------
 src/portfft/dispatcher/global_dispatcher.hpp  |  40 ++---
 .../dispatcher/subgroup_dispatcher.hpp        |  20 +--
 .../dispatcher/workgroup_dispatcher.hpp       |  22 +--
 .../dispatcher/workitem_dispatcher.hpp        |  14 +-
 src/portfft/utils.hpp                         |   8 +-
 test/common/reference_data_wrangler.hpp       |   2 +-
 10 files changed, 168 insertions(+), 191 deletions(-)

diff --git a/CMakeLists.txt b/CMakeLists.txt
index 7d1f3e47..27c34084 100644
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -48,8 +48,8 @@ option(PORTFFT_CLANG_TIDY "Enable clang-tidy checks on portFFT source when build
 option(PORTFFT_CLANG_TIDY_AUTOFIX "Attempt to fix defects found by clang-tidy" OFF)
 option(PORTFFT_LOG_DUMPS "Whether to enable logging of data dumps" OFF)
 option(PORTFFT_LOG_TRANSFERS "Whether to enable logging of memory transfers" OFF)
-option(PORTFFT_LOG_TRACE "Whether to enable tracing of function calls" OFF)
-option(PORTFFT_LOG_WARNING "Whether to enable logging of warnings" ON)
+option(PORTFFT_LOG_TRACES "Whether to enable tracing of function calls" OFF)
+option(PORTFFT_LOG_WARNINGS "Whether to enable logging of warnings" ON)
 set(PORTFFT_REGISTERS_PER_WI 128 CACHE STRING "How many 32b registers can be allocated per work item on the target device")
 set(PORTFFT_SUBGROUP_SIZES 32 CACHE STRING "Comma separated list of subgroup sizes to compile for. The first size supported by the device will be used.")
 set(PORTFFT_VEC_LOAD_BYTES 16 CACHE STRING "Number of consecutive bytes each work item should load at once.")
@@ -102,12 +102,12 @@ if(${PORTFFT_LOG_TRANSFERS})
   target_compile_definitions(portfft INTERFACE PORTFFT_LOG_TRANSFERS)
   set(PORTFFT_KERNEL_LOG ON)
 endif()
-if(${PORTFFT_LOG_TRACE})
-  target_compile_definitions(portfft INTERFACE PORTFFT_LOG_TRACE)
+if(${PORTFFT_LOG_TRACES})
+  target_compile_definitions(portfft INTERFACE PORTFFT_LOG_TRACES)
   set(PORTFFT_KERNEL_LOG ON)
 endif()
-if(${PORTFFT_LOG_WARNING})
-  target_compile_definitions(portfft INTERFACE PORTFFT_LOG_WARNING)
+if(${PORTFFT_LOG_WARNINGS})
+  target_compile_definitions(portfft INTERFACE PORTFFT_LOG_WARNINGS)
 endif()
 if(${PORTFFT_KERNEL_LOG})
   target_compile_definitions(portfft INTERFACE PORTFFT_KERNEL_LOG)
diff --git a/src/portfft/common/global.hpp b/src/portfft/common/global.hpp
index 03a8cd66..f201eaea 100644
--- a/src/portfft/common/global.hpp
+++ b/src/portfft/common/global.hpp
@@ -209,12 +209,12 @@ void launch_kernel(sycl::accessor<const Scalar, 1, sycl::access::mode::read>& in
                    const IdxGlobal* inclusive_scan, IdxGlobal n_transforms, Scalar scale_factor,
                    IdxGlobal input_batch_offset, std::pair<sycl::range<1>, sycl::range<1>> launch_params,
                    sycl::handler& cgh) {
-  LOG_FUNCTION_ENTRY();
+  PORTFFT_LOG_FUNCTION_ENTRY();
   auto [global_range, local_range] = launch_params;
 #ifdef PORTFFT_KERNEL_LOG
   sycl::stream s{1024 * 16, 1024, cgh};
 #endif
-  LOG_TRACE("Launching kernel for global implementation with global_size", global_range[0], "local_size",
+  PORTFFT_LOG_TRACE("Launching kernel for global implementation with global_size", global_range[0], "local_size",
             local_range[0]);
   cgh.parallel_for<global_kernel<Scalar, Domain, Dir, memory::BUFFER, LayoutIn, LayoutOut, SubgroupSize>>(
       sycl::nd_range<1>(global_range, local_range), [=
@@ -271,12 +271,12 @@ void launch_kernel(const Scalar* input, Scalar* output, const Scalar* input_imag
                    const IdxGlobal* inclusive_scan, IdxGlobal n_transforms, Scalar scale_factor,
                    IdxGlobal input_batch_offset, std::pair<sycl::range<1>, sycl::range<1>> launch_params,
                    sycl::handler& cgh) {
-  LOG_FUNCTION_ENTRY();
+  PORTFFT_LOG_FUNCTION_ENTRY();
 #ifdef PORTFFT_KERNEL_LOG
   sycl::stream s{1024 * 16 * 16, 1024, cgh};
 #endif
   auto [global_range, local_range] = launch_params;
-  LOG_TRACE("Launching kernel for global implementation with global_size", global_range[0], "local_size",
+  PORTFFT_LOG_TRACE("Launching kernel for global implementation with global_size", global_range[0], "local_size",
             local_range[0]);
   cgh.parallel_for<global_kernel<Scalar, Domain, Dir, memory::USM, LayoutIn, LayoutOut, SubgroupSize>>(
       sycl::nd_range<1>(global_range, local_range), [=
@@ -318,13 +318,13 @@ static void dispatch_transpose_kernel_impl(const Scalar* input,
                                            sycl::local_accessor<Scalar, 2>& loc, const IdxGlobal* factors,
                                            const IdxGlobal* inner_batches, const IdxGlobal* inclusive_scan,
                                            IdxGlobal output_offset, IdxGlobal lda, IdxGlobal ldb, sycl::handler& cgh) {
-  LOG_FUNCTION_ENTRY();
+  PORTFFT_LOG_FUNCTION_ENTRY();
 #ifdef PORTFFT_KERNEL_LOG
   sycl::stream s{1024 * 16, 1024, cgh};
 #endif
   std::size_t lda_rounded = detail::round_up_to_multiple(static_cast<std::size_t>(lda), static_cast<std::size_t>(16));
   std::size_t ldb_rounded = detail::round_up_to_multiple(static_cast<std::size_t>(ldb), static_cast<std::size_t>(16));
-  LOG_TRACE("Launching transpose kernel with global_size", lda_rounded, ldb_rounded, "local_size", 16, 16);
+  PORTFFT_LOG_TRACE("Launching transpose kernel with global_size", lda_rounded, ldb_rounded, "local_size", 16, 16);
   cgh.parallel_for<detail::transpose_kernel<Scalar, memory::BUFFER>>(
       sycl::nd_range<2>({lda_rounded, ldb_rounded}, {16, 16}), [=
 #ifdef PORTFFT_KERNEL_LOG
@@ -377,13 +377,13 @@ static void dispatch_transpose_kernel_impl(const Scalar* input, Scalar* output,
                                            const IdxGlobal* factors, const IdxGlobal* inner_batches,
                                            const IdxGlobal* inclusive_scan, IdxGlobal output_offset, IdxGlobal lda,
                                            IdxGlobal ldb, sycl::handler& cgh) {
-  LOG_FUNCTION_ENTRY();
+  PORTFFT_LOG_FUNCTION_ENTRY();
 #ifdef PORTFFT_KERNEL_LOG
   sycl::stream s{1024 * 16 * 16, 1024, cgh};
 #endif
   std::size_t lda_rounded = detail::round_up_to_multiple(static_cast<std::size_t>(lda), static_cast<std::size_t>(16));
   std::size_t ldb_rounded = detail::round_up_to_multiple(static_cast<std::size_t>(ldb), static_cast<std::size_t>(16));
-  LOG_TRACE("Launching transpose kernel with global_size", lda_rounded, ldb_rounded, "local_size", 16, 16);
+  PORTFFT_LOG_TRACE("Launching transpose kernel with global_size", lda_rounded, ldb_rounded, "local_size", 16, 16);
   cgh.parallel_for<detail::transpose_kernel<Scalar, memory::USM>>(
       sycl::nd_range<2>({lda_rounded, ldb_rounded}, {16, 16}), [=
 #ifdef PORTFFT_KERNEL_LOG
@@ -443,7 +443,7 @@ sycl::event transpose_level(const typename committed_descriptor<Scalar, Domain>:
                             Idx num_batches_in_l2, IdxGlobal n_transforms, IdxGlobal batch_start, Idx total_factors,
                             IdxGlobal output_offset, sycl::queue& queue, const std::vector<sycl::event>& events,
                             complex_storage storage) {
-  LOG_FUNCTION_ENTRY();
+  PORTFFT_LOG_FUNCTION_ENTRY();
   const IdxGlobal vec_size = storage == complex_storage::INTERLEAVED_COMPLEX ? 2 : 1;
   std::vector<sycl::event> transpose_events;
   IdxGlobal ld_input = kd_struct.factors.at(1);
@@ -517,7 +517,7 @@ std::vector<sycl::event> compute_level(
     IdxGlobal input_global_offset, IdxGlobal committed_size, Idx num_batches_in_l2, IdxGlobal n_transforms,
     IdxGlobal batch_start, Idx factor_id, Idx total_factors, complex_storage storage,
     const std::vector<sycl::event>& dependencies, sycl::queue& queue) {
-  LOG_FUNCTION_ENTRY();
+  PORTFFT_LOG_FUNCTION_ENTRY();
   IdxGlobal local_range = kd_struct.local_range;
   IdxGlobal global_range = kd_struct.global_range;
   IdxGlobal batch_size = kd_struct.batch_size;
diff --git a/src/portfft/common/logging.hpp b/src/portfft/common/logging.hpp
index 8da7c040..9967c919 100644
--- a/src/portfft/common/logging.hpp
+++ b/src/portfft/common/logging.hpp
@@ -314,25 +314,18 @@ struct global_data_struct {
 };
 
 /*
- * Outputs an object to std::cout. Most objects are piped directly to std::cout.
+ * Outputs an object to std::cout.
  *
  * @tparam T type of the object to output
  * @param object object to output
  */
-template <typename T, typename std::enable_if_t<!std::is_enum_v<T>>* = nullptr>
-__attribute__((always_inline)) inline void output(T object) {
-  std::cout << object;
-}
-
-/*
- * Outputs an object to std::cout. Enums are first cast to underlying type.
- *
- * @tparam T type of the object to output
- * @param object object to output
- */
-template <typename T, typename std::enable_if_t<std::is_enum_v<T>>* = nullptr>
-__attribute__((always_inline)) inline void output(T object) {
-  output(static_cast<std::underlying_type_t<T>>(object));
+template <typename T>
+void output(const T& object) {
+  if constexpr(std::is_enum_v<T>){
+    output(static_cast<std::underlying_type_t<T>>(object));
+  } else{
+    std::cout << object;
+  }
 }
 
 /*
@@ -342,7 +335,7 @@ __attribute__((always_inline)) inline void output(T object) {
  * @param object object to output
  */
 template <typename T>
-__attribute__((always_inline)) inline void output(const std::vector<T>& object) {
+void output(const std::vector<T>& object) {
   std::cout << "(";
   for (const T& element : object) {
     output(element);
@@ -351,33 +344,17 @@ __attribute__((always_inline)) inline void output(const std::vector<T>& object)
   std::cout << ")";
 }
 
-/*
- * Logs a message. End of recursion - logs the message, adds a newline and flushes the stream.
- *
- * @tparam T type of the object to log
- * @param message message to log
- */
-template <typename T>
-__attribute__((always_inline)) inline void log_message_impl(T message) {
-  output(message);
-  std::cout << std::endl;
-}
-
 /**
  * Logs a message.
  *
- * @tparam TFirst type of the first object to log
- * @tparam Ts types of the other objects to log
- * @param message the first message to log
- * @param other_messages other messages to log
+ * @tparam Ts types of the objects to log
+ * @param messages messages to log
  */
-template <typename TFirst, typename... Ts>
-__attribute__((always_inline)) inline void log_message_impl(TFirst message, Ts... other_messages) {
-  output(message);
-  std::cout << " ";
-  log_message_impl(other_messages...);
+template <typename... Ts>
+void log_message_impl(Ts... messages) {
+  ((output(messages), std::cout << " "), ...);
+  std::cout << std::endl;
 }
-
 /**
  * Prints the message and dumps data from host to standard output
  *
@@ -387,7 +364,7 @@ __attribute__((always_inline)) inline void log_message_impl(TFirst message, Ts..
  * @param size number of elements to dump
  */
 template <typename T>
-PORTFFT_INLINE void dump_host([[maybe_unused]] const char* msg, [[maybe_unused]] T* host_ptr,
+void dump_host([[maybe_unused]] const char* msg, [[maybe_unused]] T* host_ptr,
                               [[maybe_unused]] std::size_t size) {
 #ifdef PORTFFT_LOG_DUMPS
   if (global_logging_config.log_dumps) {
@@ -411,7 +388,7 @@ PORTFFT_INLINE void dump_host([[maybe_unused]] const char* msg, [[maybe_unused]]
  * @param dependencies dependencies to wait on
  */
 template <typename T>
-PORTFFT_INLINE void dump_device([[maybe_unused]] sycl::queue& q, [[maybe_unused]] const char* msg,
+void dump_device([[maybe_unused]] sycl::queue& q, [[maybe_unused]] const char* msg,
                                 [[maybe_unused]] T* dev_ptr, [[maybe_unused]] std::size_t size,
                                 [[maybe_unused]] const std::vector<sycl::event>& dependencies = {}) {
 #ifdef PORTFFT_LOG_DUMPS
@@ -432,8 +409,8 @@ PORTFFT_INLINE void dump_device([[maybe_unused]] sycl::queue& q, [[maybe_unused]
  * @param messages objects to log
  */
 template <typename... Ts>
-PORTFFT_INLINE void log_trace([[maybe_unused]] Ts... messages) {
-#ifdef PORTFFT_LOG_TRACE
+void log_trace([[maybe_unused]] const Ts&... messages) {
+#ifdef PORTFFT_LOG_TRACES
   if (global_logging_config.log_trace) {
     log_message_impl(messages...);
   }
@@ -449,21 +426,21 @@ PORTFFT_INLINE void log_trace([[maybe_unused]] Ts... messages) {
  * @param messages objects to log
  */
 template <typename... Ts>
-PORTFFT_INLINE void log_warning([[maybe_unused]] Ts... messages) {
-#ifdef PORTFFT_LOG_WARNING
+void log_warning([[maybe_unused]] const Ts&... messages) {
+#ifdef PORTFFT_LOG_WARNINGS
   if (global_logging_config.log_warnings) {
     log_message_impl("WARNING:", messages...);
   }
 #endif
 }
 
-#define LOGGING_LOCATION_INFORMATION __FILE__ ", line", __LINE__, "- in", __FUNCTION__, ":"
+#define PORTFFT_LOGGING_LOCATION_INFORMATION __FILE__ ", line", __LINE__, "- in", __FUNCTION__, ":"
 
-#define LOG_FUNCTION_ENTRY() portfft::detail::log_trace(LOGGING_LOCATION_INFORMATION, "entered")
+#define PORTFFT_LOG_FUNCTION_ENTRY() portfft::detail::log_trace(PORTFFT_LOGGING_LOCATION_INFORMATION, "entered")
 
-#define LOG_TRACE(...) portfft::detail::log_trace(LOGGING_LOCATION_INFORMATION, __VA_ARGS__)
+#define PORTFFT_LOG_TRACE(...) portfft::detail::log_trace(PORTFFT_LOGGING_LOCATION_INFORMATION, __VA_ARGS__)
 
-#define LOG_WARNING(...) portfft::detail::log_warning(LOGGING_LOCATION_INFORMATION, __VA_ARGS__)
+#define PORTFFT_LOG_WARNING(...) portfft::detail::log_warning(PORTFFT_LOGGING_LOCATION_INFORMATION, __VA_ARGS__)
 
 };  // namespace portfft::detail
 
diff --git a/src/portfft/descriptor.hpp b/src/portfft/descriptor.hpp
index fef15451..129c1eb8 100644
--- a/src/portfft/descriptor.hpp
+++ b/src/portfft/descriptor.hpp
@@ -76,7 +76,7 @@ class transpose_kernel;
  * @param lengths the dimensions of the dft
  */
 inline std::vector<std::size_t> get_default_strides(const std::vector<std::size_t>& lengths) {
-  LOG_FUNCTION_ENTRY();
+  PORTFFT_LOG_FUNCTION_ENTRY();
   std::vector<std::size_t> strides(lengths.size());
   std::size_t total_size = 1;
   for (std::size_t i_plus1 = lengths.size(); i_plus1 > 0; i_plus1--) {
@@ -84,7 +84,7 @@ inline std::vector<std::size_t> get_default_strides(const std::vector<std::size_
     strides[i] = total_size;
     total_size *= lengths[i];
   }
-  LOG_TRACE("Default strides:", strides);
+  PORTFFT_LOG_TRACE("Default strides:", strides);
   return strides;
 }
 
@@ -314,7 +314,7 @@ class committed_descriptor {
   template <Idx SubgroupSize>
   std::tuple<detail::level, std::vector<std::tuple<detail::level, std::vector<sycl::kernel_id>, std::vector<Idx>>>>
   prepare_implementation(std::size_t kernel_num) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     // TODO: check and support all the parameter values
     if constexpr (Domain != domain::COMPLEX) {
       throw unsupported_configuration("portFFT only supports complex to complex transforms");
@@ -325,7 +325,7 @@ class committed_descriptor {
     IdxGlobal fft_size = static_cast<IdxGlobal>(params.lengths[kernel_num]);
     if (detail::fits_in_wi<Scalar>(fft_size)) {
       ids = detail::get_ids<detail::workitem_kernel, Scalar, Domain, SubgroupSize>();
-      LOG_TRACE("Prepared workitem impl for size: ", fft_size);
+      PORTFFT_LOG_TRACE("Prepared workitem impl for size: ", fft_size);
       return {detail::level::WORKITEM, {{detail::level::WORKITEM, ids, factors}}};
     }
     if (detail::fits_in_sg<Scalar>(fft_size, SubgroupSize)) {
@@ -336,7 +336,7 @@ class committed_descriptor {
       factors.push_back(factor_wi);
       factors.push_back(factor_sg);
       ids = detail::get_ids<detail::subgroup_kernel, Scalar, Domain, SubgroupSize>();
-      LOG_TRACE("Prepared subgroup impl with factor_wi:", factor_wi, "and factor_sg:", factor_sg);
+      PORTFFT_LOG_TRACE("Prepared subgroup impl with factor_wi:", factor_wi, "and factor_sg:", factor_sg);
       return {detail::level::SUBGROUP, {{detail::level::SUBGROUP, ids, factors}}};
     }
     IdxGlobal n_idx_global = detail::factorize(fft_size);
@@ -367,12 +367,12 @@ class committed_descriptor {
         // This factorization of N and M is duplicated in the dispatch logic on the device.
         // The CT and spec constant factors should match.
         ids = detail::get_ids<detail::workgroup_kernel, Scalar, Domain, SubgroupSize>();
-        LOG_TRACE("Prepared workgroup impl with factor_wi_n:", factor_wi_n, " factor_sg_n:", factor_sg_n,
+        PORTFFT_LOG_TRACE("Prepared workgroup impl with factor_wi_n:", factor_wi_n, " factor_sg_n:", factor_sg_n,
                   " factor_wi_m:", factor_wi_m, " factor_sg_m:", factor_sg_m);
         return {detail::level::WORKGROUP, {{detail::level::WORKGROUP, ids, factors}}};
       }
     }
-    LOG_TRACE("Preparing global impl");
+    PORTFFT_LOG_TRACE("Preparing global impl");
     std::vector<std::tuple<detail::level, std::vector<sycl::kernel_id>, std::vector<Idx>>> param_vec;
     auto check_and_select_target_level = [&](IdxGlobal factor_size, bool batch_interleaved_layout = true) -> bool {
       if (detail::fits_in_wi<Scalar>(factor_size)) {
@@ -380,7 +380,7 @@ class committed_descriptor {
         param_vec.emplace_back(detail::level::WORKITEM,
                                detail::get_ids<detail::global_kernel, Scalar, Domain, SubgroupSize>(),
                                std::vector<Idx>{static_cast<Idx>(factor_size)});
-        LOG_TRACE("Workitem kernel for factor:", factor_size);
+        PORTFFT_LOG_TRACE("Workitem kernel for factor:", factor_size);
         return true;
       }
       bool fits_in_local_memory_subgroup = [&]() {
@@ -410,7 +410,7 @@ class committed_descriptor {
           !PORTFFT_SLOW_SG_SHUFFLES) {
         Idx factor_sg = detail::factorize_sg(static_cast<Idx>(factor_size), SubgroupSize);
         Idx factor_wi = static_cast<Idx>(factor_size) / factor_sg;
-        LOG_TRACE("Subgroup kernel for factor:", factor_size, "with factor_wi:", factor_wi,
+        PORTFFT_LOG_TRACE("Subgroup kernel for factor:", factor_size, "with factor_wi:", factor_wi,
                   "and factor_sg:", factor_sg);
         param_vec.emplace_back(detail::level::SUBGROUP,
                                detail::get_ids<detail::global_kernel, Scalar, Domain, SubgroupSize>(),
@@ -454,21 +454,21 @@ class committed_descriptor {
                           detail::elementwise_multiply multiply_on_load, detail::elementwise_multiply multiply_on_store,
                           detail::apply_scale_factor scale_factor_applied, detail::level level, Idx factor_num = 0,
                           Idx num_factors = 0) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     const Idx length_idx = static_cast<Idx>(length);
     // These spec constants are used in all implementations, so we set them here
-    LOG_TRACE("Setting specialization constants:");
-    LOG_TRACE("SpecConstComplexStorage:", params.complex_storage);
+    PORTFFT_LOG_TRACE("Setting specialization constants:");
+    PORTFFT_LOG_TRACE("SpecConstComplexStorage:", params.complex_storage);
     in_bundle.template set_specialization_constant<detail::SpecConstComplexStorage>(params.complex_storage);
-    LOG_TRACE("SpecConstNumRealsPerFFT:", 2 * length_idx);
+    PORTFFT_LOG_TRACE("SpecConstNumRealsPerFFT:", 2 * length_idx);
     in_bundle.template set_specialization_constant<detail::SpecConstNumRealsPerFFT>(2 * length_idx);
-    LOG_TRACE("SpecConstWIScratchSize:", 2 * detail::wi_temps(length_idx));
+    PORTFFT_LOG_TRACE("SpecConstWIScratchSize:", 2 * detail::wi_temps(length_idx));
     in_bundle.template set_specialization_constant<detail::SpecConstWIScratchSize>(2 * detail::wi_temps(length_idx));
-    LOG_TRACE("SpecConstMultiplyOnLoad:", multiply_on_load);
+    PORTFFT_LOG_TRACE("SpecConstMultiplyOnLoad:", multiply_on_load);
     in_bundle.template set_specialization_constant<detail::SpecConstMultiplyOnLoad>(multiply_on_load);
-    LOG_TRACE("SpecConstMultiplyOnStore:", multiply_on_store);
+    PORTFFT_LOG_TRACE("SpecConstMultiplyOnStore:", multiply_on_store);
     in_bundle.template set_specialization_constant<detail::SpecConstMultiplyOnStore>(multiply_on_store);
-    LOG_TRACE("SpecConstApplyScaleFactor:", scale_factor_applied);
+    PORTFFT_LOG_TRACE("SpecConstApplyScaleFactor:", scale_factor_applied);
     in_bundle.template set_specialization_constant<detail::SpecConstApplyScaleFactor>(scale_factor_applied);
     dispatch<set_spec_constants_struct>(top_level, in_bundle, length, factors, level, factor_num, num_factors);
   }
@@ -499,7 +499,7 @@ class committed_descriptor {
   template <detail::layout LayoutIn>
   std::size_t num_scalars_in_local_mem(detail::level level, std::size_t length, Idx used_sg_size,
                                        const std::vector<Idx>& factors, Idx& num_sgs_per_wg) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     return dispatch<num_scalars_in_local_mem_struct, LayoutIn>(level, length, used_sg_size, factors, num_sgs_per_wg);
   }
 
@@ -521,7 +521,7 @@ class committed_descriptor {
    * @return Scalar* USM pointer to the twiddle factors
    */
   Scalar* calculate_twiddles(dimension_struct& dimension_data) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     return dispatch<calculate_twiddles_struct>(dimension_data.level, dimension_data);
   }
 
@@ -536,7 +536,7 @@ class committed_descriptor {
    */
   template <Idx SubgroupSize, Idx... OtherSGSizes>
   dimension_struct build_w_spec_const(std::size_t kernel_num) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     if (std::count(supported_sg_sizes.begin(), supported_sg_sizes.end(), SubgroupSize)) {
       auto [top_level, prepared_vec] = prepare_implementation<SubgroupSize>(kernel_num);
       bool is_compatible = true;
@@ -573,12 +573,12 @@ class committed_descriptor {
                                detail::apply_scale_factor::APPLIED, level);
           }
           try {
-            LOG_TRACE("Building kernel bundle with subgroup size", SubgroupSize);
+            PORTFFT_LOG_TRACE("Building kernel bundle with subgroup size", SubgroupSize);
             result.emplace_back(sycl::build(in_bundle), factors, params.lengths[kernel_num], SubgroupSize,
                                 PORTFFT_SGS_IN_WG, std::shared_ptr<Scalar>(), level);
-            LOG_TRACE("Kernel bundle build complete.");
+            PORTFFT_LOG_TRACE("Kernel bundle build complete.");
           } catch (std::exception& e) {
-            LOG_WARNING("Build for subgroup size", SubgroupSize, "failed with message:\n", e.what());
+            PORTFFT_LOG_WARNING("Build for subgroup size", SubgroupSize, "failed with message:\n", e.what());
             is_compatible = false;
             break;
           }
@@ -601,7 +601,7 @@ class committed_descriptor {
    * @param num_global_level_dimensions number of global level dimensions in the committed size
    */
   void allocate_scratch_and_precompute_scan(Idx num_global_level_dimensions) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     std::size_t n_kernels = params.lengths.size();
     if (num_global_level_dimensions == 1) {
       std::size_t global_dimension = 0;
@@ -625,7 +625,7 @@ class committed_descriptor {
       }
       dimensions.at(global_dimension).num_factors = static_cast<Idx>(factors.size());
       std::size_t cache_space_left_for_batches = static_cast<std::size_t>(llc_size) - cache_required_for_twiddles;
-      // TODO: In case of mutli-dim (single dim global sized), this should be batches corresponding to that dim
+      // TODO: In case of multi-dim (single dim global sized), this should be batches corresponding to that dim
       dimensions.at(global_dimension).num_batches_in_l2 = static_cast<Idx>(std::min(
           static_cast<std::size_t>(PORTFFT_MAX_CONCURRENT_KERNELS),
           std::min(params.number_of_transforms,
@@ -633,7 +633,7 @@ class committed_descriptor {
                                                 (2 * dimensions.at(global_dimension).length * sizeof(Scalar))))));
       scratch_space_required = 2 * dimensions.at(global_dimension).length *
                                static_cast<std::size_t>(dimensions.at(global_dimension).num_batches_in_l2);
-      LOG_TRACE("Allocating 2 scratch arrays of size", scratch_space_required, "scalars in global memory");
+      PORTFFT_LOG_TRACE("Allocating 2 scratch arrays of size", scratch_space_required, "scalars in global memory");
       scratch_ptr_1 = detail::make_shared<Scalar>(scratch_space_required, queue);
       scratch_ptr_2 = detail::make_shared<Scalar>(scratch_space_required, queue);
       inclusive_scan.push_back(factors.at(0));
@@ -655,12 +655,12 @@ class committed_descriptor {
         std::vector<sycl::kernel_id> ids;
         auto in_bundle = sycl::get_kernel_bundle<sycl::bundle_state::input>(queue.get_context(),
                                                                             detail::get_transpose_kernel_ids<Scalar>());
-        LOG_TRACE("Setting specialization constants for transpose kernel", i);
-        LOG_TRACE("SpecConstComplexStorage:", params.complex_storage);
+        PORTFFT_LOG_TRACE("Setting specialization constants for transpose kernel", i);
+        PORTFFT_LOG_TRACE("SpecConstComplexStorage:", params.complex_storage);
         in_bundle.template set_specialization_constant<detail::SpecConstComplexStorage>(params.complex_storage);
-        LOG_TRACE("GlobalSpecConstLevelNum:", i);
+        PORTFFT_LOG_TRACE("GlobalSpecConstLevelNum:", i);
         in_bundle.template set_specialization_constant<detail::GlobalSpecConstLevelNum>(static_cast<Idx>(i));
-        LOG_TRACE("GlobalSpecConstNumFactors:", factors.size());
+        PORTFFT_LOG_TRACE("GlobalSpecConstNumFactors:", factors.size());
         in_bundle.template set_specialization_constant<detail::GlobalSpecConstNumFactors>(
             static_cast<Idx>(factors.size()));
         dimensions.at(global_dimension)
@@ -712,10 +712,10 @@ class committed_descriptor {
           for (std::size_t j = 0; j < num_transposes_required; j++) {
             auto in_bundle = sycl::get_kernel_bundle<sycl::bundle_state::input>(
                 queue.get_context(), detail::get_transpose_kernel_ids<Scalar>());
-            LOG_TRACE("Setting specilization constants for transpose kernel", j);
-            LOG_TRACE("GlobalSpecConstLevelNum:", i);
+            PORTFFT_LOG_TRACE("Setting specilization constants for transpose kernel", j);
+            PORTFFT_LOG_TRACE("GlobalSpecConstLevelNum:", i);
             in_bundle.template set_specialization_constant<detail::GlobalSpecConstLevelNum>(static_cast<Idx>(i));
-            LOG_TRACE("GlobalSpecConstNumFactors:", factors.size());
+            PORTFFT_LOG_TRACE("GlobalSpecConstNumFactors:", factors.size());
             in_bundle.template set_specialization_constant<detail::GlobalSpecConstNumFactors>(
                 static_cast<Idx>(factors.size()));
             dimensions.at(i).kernels.emplace_back(
@@ -744,12 +744,12 @@ class committed_descriptor {
         supported_sg_sizes(dev.get_info<sycl::info::device::sub_group_sizes>()),
         local_memory_size(static_cast<Idx>(queue.get_device().get_info<sycl::info::device::local_mem_size>())),
         llc_size(static_cast<IdxGlobal>(queue.get_device().get_info<sycl::info::device::global_mem_cache_size>())) {
-    LOG_FUNCTION_ENTRY();
-    LOG_TRACE("Device info:");
-    LOG_TRACE("n_compute_units:", n_compute_units);
-    LOG_TRACE("supported_sg_sizes:", supported_sg_sizes);
-    LOG_TRACE("local_memory_size:", local_memory_size);
-    LOG_TRACE("llc_size:", llc_size);
+    PORTFFT_LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_TRACE("Device info:");
+    PORTFFT_LOG_TRACE("n_compute_units:", n_compute_units);
+    PORTFFT_LOG_TRACE("supported_sg_sizes:", supported_sg_sizes);
+    PORTFFT_LOG_TRACE("local_memory_size:", local_memory_size);
+    PORTFFT_LOG_TRACE("llc_size:", llc_size);
 
     // check it's suitable to run
     const auto forward_layout = detail::get_layout(params, direction::FORWARD);
@@ -776,7 +776,7 @@ class committed_descriptor {
       dimensions.back().kernels.at(0).twiddles_forward =
           std::shared_ptr<Scalar>(calculate_twiddles(dimensions.back()), [queue](Scalar* ptr) {
             if (ptr != nullptr) {
-              LOG_TRACE("Freeing the array for twiddle factors");
+              PORTFFT_LOG_TRACE("Freeing the array for twiddle factors");
               sycl::free(ptr, queue);
             }
           });
@@ -810,7 +810,7 @@ class committed_descriptor {
    * @param desc committed_descriptor of which the copy is to be made
    */
   void create_copy(const committed_descriptor<Scalar, Domain>& desc) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
 #define PORTFFT_COPY(x) this->x = desc.x;
     PORTFFT_COPY(params)
     PORTFFT_COPY(queue)
@@ -832,7 +832,7 @@ class committed_descriptor {
       }
     }
     if (is_scratch_required) {
-      LOG_TRACE("Allocating 2 scratch arrays of size", desc.scratch_space_required, "Scalars in global memory");
+      PORTFFT_LOG_TRACE("Allocating 2 scratch arrays of size", desc.scratch_space_required, "Scalars in global memory");
       this->scratch_ptr_1 =
           detail::make_shared<Scalar>(static_cast<std::size_t>(desc.scratch_space_required), this->queue);
       this->scratch_ptr_2 =
@@ -842,12 +842,12 @@ class committed_descriptor {
 
  public:
   committed_descriptor(const committed_descriptor& desc) : params(desc.params) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     create_copy(desc);
   }
 
   committed_descriptor& operator=(const committed_descriptor& desc) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     if (this != &desc) {
       create_copy(desc);
     }
@@ -869,7 +869,7 @@ class committed_descriptor {
    * Destructor
    */
   ~committed_descriptor() {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     queue.wait();
   }
 
@@ -882,7 +882,7 @@ class committed_descriptor {
    * @param inout buffer containing input and output data
    */
   void compute_forward(sycl::buffer<complex_type, 1>& inout) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     // For now we can just call out-of-place implementation.
     // This might need to be changed once we implement support for large sizes that work in global memory.
     compute_forward(inout, inout);
@@ -895,7 +895,7 @@ class committed_descriptor {
    * @param inout_imag buffer containing imaginary part of the input and output data
    */
   void compute_forward(sycl::buffer<scalar_type, 1>& inout_real, sycl::buffer<scalar_type, 1>& inout_imag) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     // For now we can just call out-of-place implementation.
     // This might need to be changed once we implement support for large sizes that work in global memory.
     compute_forward(inout_real, inout_imag, inout_real, inout_imag);
@@ -907,7 +907,7 @@ class committed_descriptor {
    * @param inout buffer containing input and output data
    */
   void compute_backward(sycl::buffer<complex_type, 1>& inout) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     // For now we can just call out-of-place implementation.
     // This might need to be changed once we implement support for large sizes that work in global memory.
     compute_backward(inout, inout);
@@ -920,7 +920,7 @@ class committed_descriptor {
    * @param inout_imag buffer containing imaginary part of the input and output data
    */
   void compute_backward(sycl::buffer<scalar_type, 1>& inout_real, sycl::buffer<scalar_type, 1>& inout_imag) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     // For now we can just call out-of-place implementation.
     // This might need to be changed once we implement support for large sizes that work in global memory.
     compute_backward(inout_real, inout_imag, inout_real, inout_imag);
@@ -933,7 +933,7 @@ class committed_descriptor {
    * @param out buffer containing output data
    */
   void compute_forward(const sycl::buffer<complex_type, 1>& in, sycl::buffer<complex_type, 1>& out) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     dispatch_direction<direction::FORWARD>(in, out, in, out, complex_storage::INTERLEAVED_COMPLEX);
   }
 
@@ -947,7 +947,7 @@ class committed_descriptor {
    */
   void compute_forward(const sycl::buffer<scalar_type, 1>& in_real, const sycl::buffer<scalar_type, 1>& in_imag,
                        sycl::buffer<scalar_type, 1>& out_real, sycl::buffer<scalar_type, 1>& out_imag) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     dispatch_direction<direction::FORWARD>(in_real, out_real, in_imag, out_imag, complex_storage::SPLIT_COMPLEX);
   }
 
@@ -958,7 +958,7 @@ class committed_descriptor {
    * @param out buffer containing output data
    */
   void compute_forward(const sycl::buffer<Scalar, 1>& /*in*/, sycl::buffer<complex_type, 1>& /*out*/) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     throw unsupported_configuration("Real to complex FFTs not yet implemented.");
   }
 
@@ -969,7 +969,7 @@ class committed_descriptor {
    * @param out buffer containing output data
    */
   void compute_backward(const sycl::buffer<complex_type, 1>& in, sycl::buffer<complex_type, 1>& out) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     dispatch_direction<direction::BACKWARD>(in, out, in, out, complex_storage::INTERLEAVED_COMPLEX);
   }
 
@@ -983,7 +983,7 @@ class committed_descriptor {
    */
   void compute_backward(const sycl::buffer<scalar_type, 1>& in_real, const sycl::buffer<scalar_type, 1>& in_imag,
                         sycl::buffer<scalar_type, 1>& out_real, sycl::buffer<scalar_type, 1>& out_imag) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     dispatch_direction<direction::BACKWARD>(in_real, out_real, in_imag, out_imag, complex_storage::SPLIT_COMPLEX);
   }
 
@@ -995,7 +995,7 @@ class committed_descriptor {
    * @return sycl::event associated with this computation
    */
   sycl::event compute_forward(complex_type* inout, const std::vector<sycl::event>& dependencies = {}) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     // For now we can just call out-of-place implementation.
     // This might need to be changed once we implement support for large sizes that work in global memory.
     return compute_forward(inout, inout, dependencies);
@@ -1011,7 +1011,7 @@ class committed_descriptor {
    */
   sycl::event compute_forward(scalar_type* inout_real, scalar_type* inout_imag,
                               const std::vector<sycl::event>& dependencies = {}) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     // For now we can just call out-of-place implementation.
     // This might need to be changed once we implement support for large sizes that work in global memory.
     return compute_forward(inout_real, inout_imag, inout_real, inout_imag, dependencies);
@@ -1025,7 +1025,7 @@ class committed_descriptor {
    * @return sycl::event associated with this computation
    */
   sycl::event compute_forward(Scalar* inout, const std::vector<sycl::event>& dependencies = {}) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     // For now we can just call out-of-place implementation.
     // This might need to be changed once we implement support for large sizes that work in global memory.
     return compute_forward(inout, reinterpret_cast<complex_type*>(inout), dependencies);
@@ -1039,7 +1039,7 @@ class committed_descriptor {
    * @return sycl::event associated with this computation
    */
   sycl::event compute_backward(complex_type* inout, const std::vector<sycl::event>& dependencies = {}) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     return compute_backward(inout, inout, dependencies);
   }
 
@@ -1053,7 +1053,7 @@ class committed_descriptor {
    */
   sycl::event compute_backward(scalar_type* inout_real, scalar_type* inout_imag,
                                const std::vector<sycl::event>& dependencies = {}) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     return compute_backward(inout_real, inout_imag, inout_real, inout_imag, dependencies);
   }
 
@@ -1067,7 +1067,7 @@ class committed_descriptor {
    */
   sycl::event compute_forward(const complex_type* in, complex_type* out,
                               const std::vector<sycl::event>& dependencies = {}) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     return dispatch_direction<direction::FORWARD>(in, out, in, out, complex_storage::INTERLEAVED_COMPLEX, dependencies);
   }
 
@@ -1083,7 +1083,7 @@ class committed_descriptor {
    */
   sycl::event compute_forward(const scalar_type* in_real, const scalar_type* in_imag, scalar_type* out_real,
                               scalar_type* out_imag, const std::vector<sycl::event>& dependencies = {}) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     return dispatch_direction<direction::FORWARD>(in_real, out_real, in_imag, out_imag, complex_storage::SPLIT_COMPLEX,
                                                   dependencies);
   }
@@ -1098,7 +1098,7 @@ class committed_descriptor {
    */
   sycl::event compute_forward(const Scalar* /*in*/, complex_type* /*out*/,
                               const std::vector<sycl::event>& /*dependencies*/ = {}) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     throw unsupported_configuration("Real to complex FFTs not yet implemented.");
     return {};
   }
@@ -1113,7 +1113,7 @@ class committed_descriptor {
    */
   sycl::event compute_backward(const complex_type* in, complex_type* out,
                                const std::vector<sycl::event>& dependencies = {}) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     return dispatch_direction<direction::BACKWARD>(in, out, in, out, complex_storage::INTERLEAVED_COMPLEX,
                                                    dependencies);
   }
@@ -1130,7 +1130,7 @@ class committed_descriptor {
    */
   sycl::event compute_backward(const scalar_type* in_real, const scalar_type* in_imag, scalar_type* out_real,
                                scalar_type* out_imag, const std::vector<sycl::event>& dependencies = {}) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     return dispatch_direction<direction::BACKWARD>(in_real, out_real, in_imag, out_imag, complex_storage::SPLIT_COMPLEX,
                                                    dependencies);
   }
@@ -1157,7 +1157,7 @@ class committed_descriptor {
   template <direction Dir, typename TIn, typename TOut>
   sycl::event dispatch_direction(const TIn& in, TOut& out, const TIn& in_imag, TOut& out_imag,
                                  complex_storage used_storage, const std::vector<sycl::event>& dependencies = {}) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
 #ifndef PORTFFT_ENABLE_BUFFER_BUILDS
     if constexpr (!std::is_pointer_v<TIn> || !std::is_pointer_v<TOut>) {
       throw invalid_configuration("Buffer interface can not be called when buffer builds are disabled.");
@@ -1216,7 +1216,7 @@ class committed_descriptor {
                                   const std::vector<std::size_t>& output_strides, std::size_t input_distance,
                                   std::size_t output_distance, std::size_t input_offset, std::size_t output_offset,
                                   Scalar scale_factor) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     using TOutConst = std::conditional_t<std::is_pointer_v<TOut>, const std::remove_pointer_t<TOut>*, const TOut>;
     std::size_t n_dimensions = params.lengths.size();
     std::size_t total_size = params.get_flattened_length();
@@ -1246,7 +1246,7 @@ class committed_descriptor {
       output_distance = params.lengths.back();
     }
 
-    LOG_TRACE("Dispatching the kernel for the last dimension");
+    PORTFFT_LOG_TRACE("Dispatching the kernel for the last dimension");
     sycl::event previous_event = dispatch_kernel_1d<Dir>(
         in, out, in_imag, out_imag, dependencies, params.number_of_transforms * outer_size, input_stride_0,
         output_stride_0, input_distance, output_distance, input_offset, output_offset, scale_factor, dimensions.back());
@@ -1261,7 +1261,7 @@ class committed_descriptor {
       // TODO do everything from the next loop in a single kernel once we support more than one distance in the
       // kernels.
       std::size_t stride_between_kernels = inner_size * params.lengths[i];
-      LOG_TRACE("Dispatching the kernels for the dimension", i);
+      PORTFFT_LOG_TRACE("Dispatching the kernels for the dimension", i);
       for (std::size_t j = 0; j < params.number_of_transforms * outer_size; j++) {
         sycl::event e = dispatch_kernel_1d<Dir, TOutConst, TOut>(
             out, out, out_imag, out_imag, previous_events, inner_size, inner_size, inner_size, 1, 1,
@@ -1308,7 +1308,7 @@ class committed_descriptor {
                                  std::size_t input_stride, std::size_t output_stride, std::size_t input_distance,
                                  std::size_t output_distance, std::size_t input_offset, std::size_t output_offset,
                                  Scalar scale_factor, dimension_struct& dimension_data) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     return dispatch_kernel_1d_helper<Dir, TIn, TOut, PORTFFT_SUBGROUP_SIZES>(
         in, out, in_imag, out_imag, dependencies, n_transforms, input_stride, output_stride, input_distance,
         output_distance, input_offset, output_offset, scale_factor, dimension_data);
@@ -1349,7 +1349,7 @@ class committed_descriptor {
                                         std::size_t output_distance, std::size_t input_offset,
                                         std::size_t output_offset, Scalar scale_factor,
                                         dimension_struct& dimension_data) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     if (SubgroupSize == dimension_data.used_sg_size) {
       const bool input_packed = input_distance == dimension_data.length && input_stride == 1;
       const bool output_packed = output_distance == dimension_data.length && output_stride == 1;
@@ -1362,7 +1362,7 @@ class committed_descriptor {
                                            kernel_data.level, kernel_data.length, SubgroupSize, kernel_data.factors,
                                            kernel_data.num_sgs_per_wg) *
                                        sizeof(Scalar);
-          LOG_TRACE("Local mem required:", minimum_local_mem_required, "B. Available: ", local_memory_size, "B.");
+          PORTFFT_LOG_TRACE("Local mem required:", minimum_local_mem_required, "B. Available: ", local_memory_size, "B.");
           if (static_cast<Idx>(minimum_local_mem_required) > local_memory_size) {
             throw out_of_local_memory_error(
                 "Insufficient amount of local memory available: " + std::to_string(local_memory_size) +
@@ -1455,7 +1455,7 @@ class committed_descriptor {
                          const std::vector<sycl::event>& dependencies, std::size_t n_transforms,
                          std::size_t input_offset, std::size_t output_offset, Scalar scale_factor,
                          dimension_struct& dimension_data) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     // mixing const and non-const inputs leads to hard-to-debug linking errors, as both use the same kernel name, but
     // are called from different template instantiations.
     static_assert(!std::is_pointer_v<TIn> || std::is_const_v<std::remove_pointer_t<TIn>>,
@@ -1578,7 +1578,7 @@ struct descriptor {
    */
   explicit descriptor(const std::vector<std::size_t>& lengths)
       : lengths(lengths), forward_strides(detail::get_default_strides(lengths)), backward_strides(forward_strides) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     // TODO: properly set default values for distances for real transforms
     std::size_t total_size = get_flattened_length();
     forward_distance = total_size;
@@ -1592,7 +1592,7 @@ struct descriptor {
    * @return committed_descriptor<Scalar, Domain>
    */
   committed_descriptor<Scalar, Domain> commit(sycl::queue& queue) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     return {*this, queue};
   }
 
diff --git a/src/portfft/dispatcher/global_dispatcher.hpp b/src/portfft/dispatcher/global_dispatcher.hpp
index 04ab965c..8bf5d927 100644
--- a/src/portfft/dispatcher/global_dispatcher.hpp
+++ b/src/portfft/dispatcher/global_dispatcher.hpp
@@ -46,7 +46,7 @@ namespace detail {
  */
 inline std::pair<IdxGlobal, IdxGlobal> get_launch_params(IdxGlobal fft_size, IdxGlobal num_batches, detail::level level,
                                                          Idx n_compute_units, Idx subgroup_size, Idx n_sgs_in_wg) {
-  LOG_FUNCTION_ENTRY();
+  PORTFFT_LOG_FUNCTION_ENTRY();
   IdxGlobal n_available_sgs = 8 * n_compute_units * 64;
   IdxGlobal wg_size = n_sgs_in_wg * subgroup_size;
   if (level == detail::level::WORKITEM) {
@@ -76,7 +76,7 @@ inline std::pair<IdxGlobal, IdxGlobal> get_launch_params(IdxGlobal fft_size, Idx
  */
 template <typename T>
 void complex_transpose(const T* a, T* b, IdxGlobal lda, IdxGlobal ldb, IdxGlobal num_elements) {
-  LOG_FUNCTION_ENTRY();
+  PORTFFT_LOG_FUNCTION_ENTRY();
   for (IdxGlobal i = 0; i < num_elements; i++) {
     IdxGlobal j = i / ldb;
     IdxGlobal k = i % ldb;
@@ -92,7 +92,7 @@ void complex_transpose(const T* a, T* b, IdxGlobal lda, IdxGlobal ldb, IdxGlobal
  * @return value to increment the pointer by
  */
 inline IdxGlobal increment_twiddle_offset(detail::level level, Idx factor_size) {
-  LOG_FUNCTION_ENTRY();
+  PORTFFT_LOG_FUNCTION_ENTRY();
   if (level == detail::level::SUBGROUP) {
     return 2 * factor_size;
   }
@@ -110,7 +110,7 @@ template <typename Scalar, domain Domain>
 template <typename Dummy>
 struct committed_descriptor<Scalar, Domain>::calculate_twiddles_struct::inner<detail::level::GLOBAL, Dummy> {
   static Scalar* execute(committed_descriptor& desc, dimension_struct& dimension_data) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     auto& kernels = dimension_data.kernels;
     std::vector<IdxGlobal> factors_idx_global;
     // Get factor sizes per level;
@@ -146,7 +146,7 @@ struct committed_descriptor<Scalar, Domain>::calculate_twiddles_struct::inner<de
     }
     std::vector<Scalar> host_memory(static_cast<std::size_t>(mem_required_for_twiddles));
     std::vector<Scalar> scratch_space(static_cast<std::size_t>(mem_required_for_twiddles));
-    LOG_TRACE("Allocating global memory for twiddles for workgroup implementation. Allocation size",
+    PORTFFT_LOG_TRACE("Allocating global memory for twiddles for workgroup implementation. Allocation size",
               mem_required_for_twiddles);
     Scalar* device_twiddles =
         sycl::malloc_device<Scalar>(static_cast<std::size_t>(mem_required_for_twiddles), desc.queue);
@@ -260,21 +260,21 @@ struct committed_descriptor<Scalar, Domain>::set_spec_constants_struct::inner<de
   static void execute(committed_descriptor& /*desc*/, sycl::kernel_bundle<sycl::bundle_state::input>& in_bundle,
                       std::size_t length, const std::vector<Idx>& factors, detail::level level, Idx factor_num,
                       Idx num_factors) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     Idx length_idx = static_cast<Idx>(length);
-    LOG_TRACE("GlobalSubImplSpecConst:", level);
+    PORTFFT_LOG_TRACE("GlobalSubImplSpecConst:", level);
     in_bundle.template set_specialization_constant<detail::GlobalSubImplSpecConst>(level);
-    LOG_TRACE("GlobalSpecConstNumFactors:", num_factors);
+    PORTFFT_LOG_TRACE("GlobalSpecConstNumFactors:", num_factors);
     in_bundle.template set_specialization_constant<detail::GlobalSpecConstNumFactors>(num_factors);
-    LOG_TRACE("GlobalSpecConstLevelNum:", factor_num);
+    PORTFFT_LOG_TRACE("GlobalSpecConstLevelNum:", factor_num);
     in_bundle.template set_specialization_constant<detail::GlobalSpecConstLevelNum>(factor_num);
     if (level == detail::level::WORKITEM || level == detail::level::WORKGROUP) {
-      LOG_TRACE("SpecConstFftSize:", length_idx);
+      PORTFFT_LOG_TRACE("SpecConstFftSize:", length_idx);
       in_bundle.template set_specialization_constant<detail::SpecConstFftSize>(length_idx);
     } else if (level == detail::level::SUBGROUP) {
-      LOG_TRACE("SubgroupFactorWISpecConst:", factors[1]);
+      PORTFFT_LOG_TRACE("SubgroupFactorWISpecConst:", factors[1]);
       in_bundle.template set_specialization_constant<detail::SubgroupFactorWISpecConst>(factors[1]);
-      LOG_TRACE("SubgroupFactorSGSpecConst:", factors[0]);
+      PORTFFT_LOG_TRACE("SubgroupFactorSGSpecConst:", factors[0]);
       in_bundle.template set_specialization_constant<detail::SubgroupFactorSGSpecConst>(factors[0]);
     }
   }
@@ -286,7 +286,7 @@ struct committed_descriptor<Scalar, Domain>::num_scalars_in_local_mem_struct::in
                                                                                     Dummy> {
   static std::size_t execute(committed_descriptor& /*desc*/, std::size_t /*length*/, Idx /*used_sg_size*/,
                              const std::vector<Idx>& /*factors*/, Idx& /*num_sgs_per_wg*/) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     // No work required as all work done in calculate_twiddles;
     return 0;
   }
@@ -302,7 +302,7 @@ struct committed_descriptor<Scalar, Domain>::run_kernel_struct<Dir, LayoutIn, La
                              const std::vector<sycl::event>& dependencies, IdxGlobal n_transforms,
                              IdxGlobal input_offset, IdxGlobal output_offset, Scalar scale_factor,
                              dimension_struct& dimension_data) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     complex_storage storage = desc.params.complex_storage;
     const IdxGlobal vec_size = storage == complex_storage::INTERLEAVED_COMPLEX ? 2 : 1;
     const auto& kernels = dimension_data.kernels;
@@ -324,11 +324,11 @@ struct committed_descriptor<Scalar, Domain>::run_kernel_struct<Dir, LayoutIn, La
       initial_impl_twiddle_offset += 2 * kernels.at(i).batch_size * static_cast<IdxGlobal>(kernels.at(i).length);
     }
     for (std::size_t i = 0; i < num_batches; i += max_batches_in_l2) {
-      LOG_TRACE("Global implementation working on batches", i, "through", i + max_batches_in_l2, "out of", num_batches);
+      PORTFFT_LOG_TRACE("Global implementation working on batches", i, "through", i + max_batches_in_l2, "out of", num_batches);
       IdxGlobal intermediate_twiddles_offset = 0;
       IdxGlobal impl_twiddle_offset = initial_impl_twiddle_offset;
       auto& kernel0 = kernels.at(0);
-      LOG_TRACE("Dispatching the kernel for factor 0 of global implementation");
+      PORTFFT_LOG_TRACE("Dispatching the kernel for factor 0 of global implementation");
       l2_events = detail::compute_level<Scalar, Domain, Dir, detail::layout::BATCH_INTERLEAVED,
                                         detail::layout::BATCH_INTERLEAVED, SubgroupSize>(
           kernel0, in, desc.scratch_ptr_1.get(), in_imag, desc.scratch_ptr_1.get() + imag_offset, twiddles_ptr,
@@ -343,9 +343,9 @@ struct committed_descriptor<Scalar, Domain>::run_kernel_struct<Dir, LayoutIn, La
       for (std::size_t factor_num = 1; factor_num < static_cast<std::size_t>(dimension_data.num_factors);
            factor_num++) {
         auto& current_kernel = kernels.at(factor_num);
-        LOG_TRACE("Dispatching the kernel for factor", factor_num, "of global implementation");
+        PORTFFT_LOG_TRACE("Dispatching the kernel for factor", factor_num, "of global implementation");
         if (static_cast<Idx>(factor_num) == dimension_data.num_factors - 1) {
-          LOG_TRACE("This is the last kernel");
+          PORTFFT_LOG_TRACE("This is the last kernel");
           l2_events =
               detail::compute_level<Scalar, Domain, Dir, detail::layout::PACKED, detail::layout::PACKED, SubgroupSize>(
                   current_kernel, desc.scratch_ptr_1.get(), desc.scratch_ptr_1.get(),
@@ -373,7 +373,7 @@ struct committed_descriptor<Scalar, Domain>::run_kernel_struct<Dir, LayoutIn, La
         cgh.host_task([&]() {});
       });
       for (Idx num_transpose = num_transposes - 1; num_transpose > 0; num_transpose--) {
-        LOG_TRACE("Dispatching the transpose kernel", num_transpose);
+        PORTFFT_LOG_TRACE("Dispatching the transpose kernel", num_transpose);
         event = detail::transpose_level<Scalar, Domain>(
             kernels.at(static_cast<std::size_t>(num_transpose) + static_cast<std::size_t>(num_factors)),
             desc.scratch_ptr_1.get(), desc.scratch_ptr_2.get(), factors_and_scan, committed_size,
@@ -388,7 +388,7 @@ struct committed_descriptor<Scalar, Domain>::run_kernel_struct<Dir, LayoutIn, La
         }
         desc.scratch_ptr_1.swap(desc.scratch_ptr_2);
       }
-      LOG_TRACE("Dispatching the transpose kernel 0");
+      PORTFFT_LOG_TRACE("Dispatching the transpose kernel 0");
       event = detail::transpose_level<Scalar, Domain>(
           kernels.at(static_cast<std::size_t>(num_factors)), desc.scratch_ptr_1.get(), out, factors_and_scan,
           committed_size, static_cast<Idx>(max_batches_in_l2), n_transforms, static_cast<IdxGlobal>(i), num_factors,
diff --git a/src/portfft/dispatcher/subgroup_dispatcher.hpp b/src/portfft/dispatcher/subgroup_dispatcher.hpp
index 1128ef25..e1f6beec 100644
--- a/src/portfft/dispatcher/subgroup_dispatcher.hpp
+++ b/src/portfft/dispatcher/subgroup_dispatcher.hpp
@@ -47,7 +47,7 @@ namespace detail {
 template <typename T>
 IdxGlobal get_global_size_subgroup(IdxGlobal n_transforms, Idx factor_sg, Idx subgroup_size, Idx num_sgs_per_wg,
                                    Idx n_compute_units) {
-  LOG_FUNCTION_ENTRY();
+  PORTFFT_LOG_FUNCTION_ENTRY();
   Idx maximum_n_sgs = 2 * n_compute_units * 64;
   Idx maximum_n_wgs = maximum_n_sgs / num_sgs_per_wg;
   Idx wg_size = subgroup_size * num_sgs_per_wg;
@@ -582,17 +582,17 @@ template <typename Scalar, domain Domain>
 template <typename Dummy>
 struct committed_descriptor<Scalar, Domain>::calculate_twiddles_struct::inner<detail::level::SUBGROUP, Dummy> {
   static Scalar* execute(committed_descriptor& desc, dimension_struct& dimension_data) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     const auto& kernel_data = dimension_data.kernels.at(0);
     Idx factor_wi = kernel_data.factors[0];
     Idx factor_sg = kernel_data.factors[1];
-    LOG_TRACE("Allocating global memory for twiddles for subgroup implementation. Allocation size",
+    PORTFFT_LOG_TRACE("Allocating global memory for twiddles for subgroup implementation. Allocation size",
               kernel_data.length * 2);
     Scalar* res = sycl::aligned_alloc_device<Scalar>(
         alignof(sycl::vec<Scalar, PORTFFT_VEC_LOAD_BYTES / sizeof(Scalar)>), kernel_data.length * 2, desc.queue);
     sycl::range<2> kernel_range({static_cast<std::size_t>(factor_sg), static_cast<std::size_t>(factor_wi)});
     desc.queue.submit([&](sycl::handler& cgh) {
-      LOG_TRACE("Launching twiddle calculation kernel for subgroup implementation with global size", factor_sg,
+      PORTFFT_LOG_TRACE("Launching twiddle calculation kernel for subgroup implementation with global size", factor_sg,
                 factor_wi);
       cgh.parallel_for(kernel_range, [=](sycl::item<2> it) {
         Idx n = static_cast<Idx>(it.get_id(0));
@@ -616,7 +616,7 @@ struct committed_descriptor<Scalar, Domain>::run_kernel_struct<Dir, LayoutIn, La
                              const std::vector<sycl::event>& dependencies, IdxGlobal n_transforms,
                              IdxGlobal input_offset, IdxGlobal output_offset, Scalar scale_factor,
                              dimension_struct& dimension_data) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     constexpr detail::memory Mem = std::is_pointer_v<TOut> ? detail::memory::USM : detail::memory::BUFFER;
     auto& kernel_data = dimension_data.kernels.at(0);
     Scalar* twiddles = kernel_data.twiddles_forward.get();
@@ -639,7 +639,7 @@ struct committed_descriptor<Scalar, Domain>::run_kernel_struct<Dir, LayoutIn, La
 #ifdef PORTFFT_KERNEL_LOG
       sycl::stream s{1024 * 16 * 16, 1024 * 8, cgh};
 #endif
-      LOG_TRACE("Launching subgroup kernel with global_size", global_size, "local_size",
+      PORTFFT_LOG_TRACE("Launching subgroup kernel with global_size", global_size, "local_size",
                 SubgroupSize * kernel_data.num_sgs_per_wg, "local memory allocation of size", local_elements,
                 "local memory allocation for twiddles of size", twiddle_elements);
       cgh.parallel_for<detail::subgroup_kernel<Scalar, Domain, Dir, Mem, LayoutIn, LayoutOut, SubgroupSize>>(
@@ -672,10 +672,10 @@ struct committed_descriptor<Scalar, Domain>::set_spec_constants_struct::inner<de
   static void execute(committed_descriptor& /*desc*/, sycl::kernel_bundle<sycl::bundle_state::input>& in_bundle,
                       std::size_t /*length*/, const std::vector<Idx>& factors, detail::level /*level*/,
                       Idx /*factor_num*/, Idx /*num_factors*/) {
-    LOG_FUNCTION_ENTRY();
-    LOG_TRACE("SubgroupFactorWISpecConst:", factors[0]);
+    PORTFFT_LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_TRACE("SubgroupFactorWISpecConst:", factors[0]);
     in_bundle.template set_specialization_constant<detail::SubgroupFactorWISpecConst>(factors[0]);
-    LOG_TRACE("SubgroupFactorSGSpecConst:", factors[1]);
+    PORTFFT_LOG_TRACE("SubgroupFactorSGSpecConst:", factors[1]);
     in_bundle.template set_specialization_constant<detail::SubgroupFactorSGSpecConst>(factors[1]);
   }
 };
@@ -686,7 +686,7 @@ struct committed_descriptor<Scalar, Domain>::num_scalars_in_local_mem_struct::in
                                                                                     Dummy> {
   static std::size_t execute(committed_descriptor& desc, std::size_t length, Idx used_sg_size,
                              const std::vector<Idx>& factors, Idx& num_sgs_per_wg) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     Idx dft_length = static_cast<Idx>(length);
     Idx twiddle_bytes = 2 * dft_length * static_cast<Idx>(sizeof(Scalar));
     if constexpr (LayoutIn == detail::layout::BATCH_INTERLEAVED) {
diff --git a/src/portfft/dispatcher/workgroup_dispatcher.hpp b/src/portfft/dispatcher/workgroup_dispatcher.hpp
index e198274a..89404133 100644
--- a/src/portfft/dispatcher/workgroup_dispatcher.hpp
+++ b/src/portfft/dispatcher/workgroup_dispatcher.hpp
@@ -63,7 +63,7 @@ PORTFFT_INLINE constexpr Idx get_num_batches_in_local_mem_workgroup(Idx workgrou
 template <typename T, detail::layout LayoutIn>
 IdxGlobal get_global_size_workgroup(IdxGlobal n_transforms, Idx subgroup_size, Idx num_sgs_per_wg,
                                     Idx n_compute_units) {
-  LOG_FUNCTION_ENTRY();
+  PORTFFT_LOG_FUNCTION_ENTRY();
   Idx maximum_n_sgs = 8 * n_compute_units * 64;
   Idx maximum_n_wgs = maximum_n_sgs / num_sgs_per_wg;
   Idx wg_size = subgroup_size * num_sgs_per_wg;
@@ -283,7 +283,7 @@ struct committed_descriptor<Scalar, Domain>::run_kernel_struct<Dir, LayoutIn, La
                              const std::vector<sycl::event>& dependencies, IdxGlobal n_transforms,
                              IdxGlobal input_offset, IdxGlobal output_offset, Scalar scale_factor,
                              dimension_struct& dimension_data) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     auto& kernel_data = dimension_data.kernels.at(0);
     Idx num_batches_in_local_mem = [=]() {
       if constexpr (LayoutIn == detail::layout::BATCH_INTERLEAVED) {
@@ -314,7 +314,7 @@ struct committed_descriptor<Scalar, Domain>::run_kernel_struct<Dir, LayoutIn, La
 #ifdef PORTFFT_KERNEL_LOG
       sycl::stream s{1024 * 16 * 8 * 2, 1024, cgh};
 #endif
-      LOG_TRACE("Launching workgroup kernel with global_size", global_size, "local_size",
+      PORTFFT_LOG_TRACE("Launching workgroup kernel with global_size", global_size, "local_size",
                 SubgroupSize * kernel_data.num_sgs_per_wg, "local memory allocation of size", local_elements);
       cgh.parallel_for<detail::workgroup_kernel<Scalar, Domain, Dir, Mem, LayoutIn, LayoutOut, SubgroupSize>>(
           sycl::nd_range<1>{{global_size}, {static_cast<std::size_t>(SubgroupSize * kernel_data.num_sgs_per_wg)}},
@@ -346,9 +346,9 @@ struct committed_descriptor<Scalar, Domain>::set_spec_constants_struct::inner<de
   static void execute(committed_descriptor& /*desc*/, sycl::kernel_bundle<sycl::bundle_state::input>& in_bundle,
                       std::size_t length, const std::vector<Idx>& /*factors*/, detail::level /*level*/,
                       Idx /*factor_num*/, Idx /*num_factors*/) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     const Idx length_idx = static_cast<Idx>(length);
-    LOG_TRACE("SpecConstFftSize:", length_idx);
+    PORTFFT_LOG_TRACE("SpecConstFftSize:", length_idx);
     in_bundle.template set_specialization_constant<detail::SpecConstFftSize>(length_idx);
   }
 };
@@ -359,7 +359,7 @@ struct committed_descriptor<Scalar, Domain>::num_scalars_in_local_mem_struct::in
                                                                                     Dummy> {
   static std::size_t execute(committed_descriptor& /*desc*/, std::size_t length, Idx used_sg_size,
                              const std::vector<Idx>& factors, Idx& /*num_sgs_per_wg*/) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     std::size_t n = static_cast<std::size_t>(factors[0]) * static_cast<std::size_t>(factors[1]);
     std::size_t m = static_cast<std::size_t>(factors[2]) * static_cast<std::size_t>(factors[3]);
     // working memory + twiddles for subgroup impl for the two sizes
@@ -375,7 +375,7 @@ template <typename Scalar, domain Domain>
 template <typename Dummy>
 struct committed_descriptor<Scalar, Domain>::calculate_twiddles_struct::inner<detail::level::WORKGROUP, Dummy> {
   static Scalar* execute(committed_descriptor& desc, dimension_struct& dimension_data) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     const auto& kernel_data = dimension_data.kernels.at(0);
     Idx factor_wi_n = kernel_data.factors[0];
     Idx factor_sg_n = kernel_data.factors[1];
@@ -385,12 +385,12 @@ struct committed_descriptor<Scalar, Domain>::calculate_twiddles_struct::inner<de
     Idx n = factor_wi_n * factor_sg_n;
     Idx m = factor_wi_m * factor_sg_m;
     Idx res_size = 2 * (m + n + fft_size);
-    LOG_TRACE("Allocating global memory for twiddles for workgroup implementation. Allocation size", res_size);
+    PORTFFT_LOG_TRACE("Allocating global memory for twiddles for workgroup implementation. Allocation size", res_size);
     Scalar* res =
         sycl::aligned_alloc_device<Scalar>(alignof(sycl::vec<Scalar, PORTFFT_VEC_LOAD_BYTES / sizeof(Scalar)>),
                                            static_cast<std::size_t>(res_size), desc.queue);
     desc.queue.submit([&](sycl::handler& cgh) {
-      LOG_TRACE("Launching twiddle calculation kernel for factor 1 of workgroup implementation with global size",
+      PORTFFT_LOG_TRACE("Launching twiddle calculation kernel for factor 1 of workgroup implementation with global size",
                 factor_sg_n, factor_wi_n);
       cgh.parallel_for(sycl::range<2>({static_cast<std::size_t>(factor_sg_n), static_cast<std::size_t>(factor_wi_n)}),
                        [=](sycl::item<2> it) {
@@ -400,7 +400,7 @@ struct committed_descriptor<Scalar, Domain>::calculate_twiddles_struct::inner<de
                        });
     });
     desc.queue.submit([&](sycl::handler& cgh) {
-      LOG_TRACE("Launching twiddle calculation kernel for factor 2 of workgroup implementation with global size",
+      PORTFFT_LOG_TRACE("Launching twiddle calculation kernel for factor 2 of workgroup implementation with global size",
                 factor_sg_m, factor_wi_m);
       cgh.parallel_for(sycl::range<2>({static_cast<std::size_t>(factor_sg_m), static_cast<std::size_t>(factor_wi_m)}),
                        [=](sycl::item<2> it) {
@@ -410,7 +410,7 @@ struct committed_descriptor<Scalar, Domain>::calculate_twiddles_struct::inner<de
                        });
     });
     desc.queue.submit([&](sycl::handler& cgh) {
-      LOG_TRACE("Launching twiddle calculation kernel for workgroup implementation with global size", n, factor_wi_m,
+      PORTFFT_LOG_TRACE("Launching twiddle calculation kernel for workgroup implementation with global size", n, factor_wi_m,
                 factor_sg_m);
       cgh.parallel_for(sycl::range<3>({static_cast<std::size_t>(n), static_cast<std::size_t>(factor_wi_m),
                                        static_cast<std::size_t>(factor_sg_m)}),
diff --git a/src/portfft/dispatcher/workitem_dispatcher.hpp b/src/portfft/dispatcher/workitem_dispatcher.hpp
index 76271cf8..487d0952 100644
--- a/src/portfft/dispatcher/workitem_dispatcher.hpp
+++ b/src/portfft/dispatcher/workitem_dispatcher.hpp
@@ -45,7 +45,7 @@ namespace detail {
  */
 template <typename T>
 IdxGlobal get_global_size_workitem(IdxGlobal n_transforms, Idx subgroup_size, Idx num_sgs_per_wg, Idx n_compute_units) {
-  LOG_FUNCTION_ENTRY();
+  PORTFFT_LOG_FUNCTION_ENTRY();
   Idx maximum_n_sgs = 8 * n_compute_units * 64;
   Idx maximum_n_wgs = maximum_n_sgs / num_sgs_per_wg;
   Idx wg_size = subgroup_size * num_sgs_per_wg;
@@ -282,7 +282,7 @@ struct committed_descriptor<Scalar, Domain>::run_kernel_struct<Dir, LayoutIn, La
                              const std::vector<sycl::event>& dependencies, IdxGlobal n_transforms,
                              IdxGlobal input_offset, IdxGlobal output_offset, Scalar scale_factor,
                              dimension_struct& dimension_data) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     constexpr detail::memory Mem = std::is_pointer_v<TOut> ? detail::memory::USM : detail::memory::BUFFER;
     auto& kernel_data = dimension_data.kernels.at(0);
     std::size_t local_elements =
@@ -301,7 +301,7 @@ struct committed_descriptor<Scalar, Domain>::run_kernel_struct<Dir, LayoutIn, La
 #ifdef PORTFFT_KERNEL_LOG
       sycl::stream s{1024 * 16 * 8, 1024, cgh};
 #endif
-      LOG_TRACE("Launching workitem kernel with global_size", global_size, "local_size",
+      PORTFFT_LOG_TRACE("Launching workitem kernel with global_size", global_size, "local_size",
                 SubgroupSize * kernel_data.num_sgs_per_wg, "local memory allocation of size", local_elements);
       cgh.parallel_for<detail::workitem_kernel<Scalar, Domain, Dir, Mem, LayoutIn, LayoutOut, SubgroupSize>>(
           sycl::nd_range<1>{{global_size}, {static_cast<std::size_t>(SubgroupSize * kernel_data.num_sgs_per_wg)}},
@@ -333,9 +333,9 @@ struct committed_descriptor<Scalar, Domain>::set_spec_constants_struct::inner<de
   static void execute(committed_descriptor& /*desc*/, sycl::kernel_bundle<sycl::bundle_state::input>& in_bundle,
                       std::size_t length, const std::vector<Idx>& /*factors*/, detail::level /*level*/,
                       Idx /*factor_num*/, Idx /*num_factors*/) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     const Idx length_idx = static_cast<Idx>(length);
-    LOG_TRACE("SpecConstFftSize:", length_idx);
+    PORTFFT_LOG_TRACE("SpecConstFftSize:", length_idx);
     in_bundle.template set_specialization_constant<detail::SpecConstFftSize>(length_idx);
   }
 };
@@ -346,7 +346,7 @@ struct committed_descriptor<Scalar, Domain>::num_scalars_in_local_mem_struct::in
                                                                                     Dummy> {
   static std::size_t execute(committed_descriptor& desc, std::size_t length, Idx used_sg_size,
                              const std::vector<Idx>& /*factors*/, Idx& num_sgs_per_wg) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     Idx num_scalars_per_sg = detail::pad_local(2 * static_cast<Idx>(length) * used_sg_size, 1);
     Idx max_n_sgs = desc.local_memory_size / static_cast<Idx>(sizeof(Scalar)) / num_scalars_per_sg;
     num_sgs_per_wg = std::min(Idx(PORTFFT_SGS_IN_WG), std::max(Idx(1), max_n_sgs));
@@ -359,7 +359,7 @@ template <typename Scalar, domain Domain>
 template <typename Dummy>
 struct committed_descriptor<Scalar, Domain>::calculate_twiddles_struct::inner<detail::level::WORKITEM, Dummy> {
   static Scalar* execute(committed_descriptor& /*desc*/, dimension_struct& /*dimension_data*/) {
-    LOG_FUNCTION_ENTRY();
+    PORTFFT_LOG_FUNCTION_ENTRY();
     return nullptr;
   }
 };
diff --git a/src/portfft/utils.hpp b/src/portfft/utils.hpp
index bbe76146..1caa1d5c 100644
--- a/src/portfft/utils.hpp
+++ b/src/portfft/utils.hpp
@@ -45,7 +45,7 @@ class transpose_kernel;
 template <template <typename, domain, direction, detail::memory, detail::layout, detail::layout, Idx> class Kernel,
           typename Scalar, domain Domain, Idx SubgroupSize>
 std::vector<sycl::kernel_id> get_ids() {
-  LOG_FUNCTION_ENTRY();
+  PORTFFT_LOG_FUNCTION_ENTRY();
   std::vector<sycl::kernel_id> ids;
 #define PORTFFT_GET_ID(DIRECTION, MEMORY, LAYOUT_IN, LAYOUT_OUT)                                                \
   try {                                                                                                         \
@@ -109,7 +109,7 @@ constexpr bool can_cast_safely(const InputType& x) {
  */
 template <typename F>
 IdxGlobal factorize_input_impl(IdxGlobal factor_size, F&& check_and_select_target_level, bool transposed) {
-  LOG_FUNCTION_ENTRY();
+  PORTFFT_LOG_FUNCTION_ENTRY();
   IdxGlobal fact_1 = factor_size;
   if (check_and_select_target_level(fact_1, transposed)) {
     return fact_1;
@@ -137,7 +137,7 @@ IdxGlobal factorize_input_impl(IdxGlobal factor_size, F&& check_and_select_targe
  */
 template <typename F>
 void factorize_input(IdxGlobal input_size, F&& check_and_select_target_level) {
-  LOG_FUNCTION_ENTRY();
+  PORTFFT_LOG_FUNCTION_ENTRY();
   if (detail::factorize(input_size) == 1) {
     throw unsupported_configuration("Large Prime sized FFTs are currently not supported");
   }
@@ -154,7 +154,7 @@ void factorize_input(IdxGlobal input_size, F&& check_and_select_target_level) {
  */
 template <typename Scalar>
 std::vector<sycl::kernel_id> get_transpose_kernel_ids() {
-  LOG_FUNCTION_ENTRY();
+  PORTFFT_LOG_FUNCTION_ENTRY();
   std::vector<sycl::kernel_id> ids;
 #define PORTFFT_GET_TRANSPOSE_KERNEL_ID(MEMORY)                               \
   try {                                                                       \
diff --git a/test/common/reference_data_wrangler.hpp b/test/common/reference_data_wrangler.hpp
index 0316e040..ab1b0588 100644
--- a/test/common/reference_data_wrangler.hpp
+++ b/test/common/reference_data_wrangler.hpp
@@ -324,7 +324,7 @@ void verify_dft(const portfft::descriptor<Scalar, Domain>& desc, const std::vect
     max_L2_rel_err = std::max(max_L2_rel_err, L2_rel_err);
   }
   // set to warning to make it print by default
-  LOG_WARNING("Max (across batches) relative L2 error: ", max_L2_rel_err);
+  PORTFFT_LOG_WARNING("Max (across batches) relative L2 error: ", max_L2_rel_err);
 
   for (std::size_t t = 0; t < desc.number_of_transforms; ++t) {
     const ElemT* this_batch_ref = ref_output.data() + dft_len * t + dft_offset;

From 84708f51d223efa9db5a3221c4ca892e172d49f1 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Tadej=20Ciglari=C4=8D?= <tadej.ciglaric@codeplay.com>
Date: Tue, 30 Jan 2024 12:18:12 +0100
Subject: [PATCH 6/9] addressed more comments

---
 src/portfft/descriptor.hpp | 1 +
 1 file changed, 1 insertion(+)

diff --git a/src/portfft/descriptor.hpp b/src/portfft/descriptor.hpp
index 0bf6b9b0..d3435b4b 100644
--- a/src/portfft/descriptor.hpp
+++ b/src/portfft/descriptor.hpp
@@ -715,6 +715,7 @@ class committed_descriptor {
       for (std::size_t i = 1; i < factors.size(); i++) {
         inclusive_scan.push_back(inclusive_scan.at(i - 1) * factors.at(i));
       }
+      PORTFFT_LOG_TRACE("Dimension:", global_dimension, "num_batches_in_l2:", dimensions.at(global_dimension).num_batches_in_l2, "scan:", inclusive_scan);
       dimensions.at(global_dimension).factors_and_scan =
           detail::make_shared<IdxGlobal>(factors.size() + sub_batches.size() + inclusive_scan.size(), queue);
       queue.copy(factors.data(), dimensions.at(global_dimension).factors_and_scan.get(), factors.size());

From bbc25820d963e9f027493c856ae5e8d42ff742fa Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Tadej=20Ciglari=C4=8D?= <tadej.ciglaric@codeplay.com>
Date: Tue, 30 Jan 2024 11:18:26 +0000
Subject: [PATCH 7/9] format

---
 src/portfft/common/global.hpp                   | 10 ++++------
 src/portfft/common/logging.hpp                  | 13 ++++++-------
 src/portfft/descriptor.hpp                      | 11 +++++++----
 src/portfft/dispatcher/global_dispatcher.hpp    |  5 +++--
 src/portfft/dispatcher/subgroup_dispatcher.hpp  |  8 ++++----
 src/portfft/dispatcher/workgroup_dispatcher.hpp | 16 +++++++++-------
 src/portfft/dispatcher/workitem_dispatcher.hpp  |  2 +-
 7 files changed, 34 insertions(+), 31 deletions(-)

diff --git a/src/portfft/common/global.hpp b/src/portfft/common/global.hpp
index a6d45d2a..414609e1 100644
--- a/src/portfft/common/global.hpp
+++ b/src/portfft/common/global.hpp
@@ -209,10 +209,9 @@ void launch_kernel(sycl::accessor<const Scalar, 1, sycl::access::mode::read>& in
   sycl::stream s{1024 * 16, 1024, cgh};
 #endif
   PORTFFT_LOG_TRACE("Launching kernel for global implementation with global_size", global_range[0], "local_size",
-            local_range[0]);
+                    local_range[0]);
   cgh.parallel_for<global_kernel<Scalar, Domain, memory::BUFFER, LayoutIn, LayoutOut, SubgroupSize>>(
-      sycl::nd_range<1>(global_range, local_range),
-      [=
+      sycl::nd_range<1>(global_range, local_range), [=
 #ifdef PORTFFT_KERNEL_LOG
                                                          ,
                                                      global_logging_config = detail::global_logging_config
@@ -271,10 +270,9 @@ void launch_kernel(const Scalar* input, Scalar* output, const Scalar* input_imag
   sycl::stream s{1024 * 16, 1024, cgh};
 #endif
   PORTFFT_LOG_TRACE("Launching kernel for global implementation with global_size", global_range[0], "local_size",
-            local_range[0]);
+                    local_range[0]);
   cgh.parallel_for<global_kernel<Scalar, Domain, memory::USM, LayoutIn, LayoutOut, SubgroupSize>>(
-      sycl::nd_range<1>(global_range, local_range),
-      [=
+      sycl::nd_range<1>(global_range, local_range), [=
 #ifdef PORTFFT_KERNEL_LOG
                                                          ,
                                                      global_logging_config = detail::global_logging_config
diff --git a/src/portfft/common/logging.hpp b/src/portfft/common/logging.hpp
index 9967c919..6a12ab8d 100644
--- a/src/portfft/common/logging.hpp
+++ b/src/portfft/common/logging.hpp
@@ -321,9 +321,9 @@ struct global_data_struct {
  */
 template <typename T>
 void output(const T& object) {
-  if constexpr(std::is_enum_v<T>){
+  if constexpr (std::is_enum_v<T>) {
     output(static_cast<std::underlying_type_t<T>>(object));
-  } else{
+  } else {
     std::cout << object;
   }
 }
@@ -364,8 +364,7 @@ void log_message_impl(Ts... messages) {
  * @param size number of elements to dump
  */
 template <typename T>
-void dump_host([[maybe_unused]] const char* msg, [[maybe_unused]] T* host_ptr,
-                              [[maybe_unused]] std::size_t size) {
+void dump_host([[maybe_unused]] const char* msg, [[maybe_unused]] T* host_ptr, [[maybe_unused]] std::size_t size) {
 #ifdef PORTFFT_LOG_DUMPS
   if (global_logging_config.log_dumps) {
     std::cout << msg << " ";
@@ -388,9 +387,9 @@ void dump_host([[maybe_unused]] const char* msg, [[maybe_unused]] T* host_ptr,
  * @param dependencies dependencies to wait on
  */
 template <typename T>
-void dump_device([[maybe_unused]] sycl::queue& q, [[maybe_unused]] const char* msg,
-                                [[maybe_unused]] T* dev_ptr, [[maybe_unused]] std::size_t size,
-                                [[maybe_unused]] const std::vector<sycl::event>& dependencies = {}) {
+void dump_device([[maybe_unused]] sycl::queue& q, [[maybe_unused]] const char* msg, [[maybe_unused]] T* dev_ptr,
+                 [[maybe_unused]] std::size_t size,
+                 [[maybe_unused]] const std::vector<sycl::event>& dependencies = {}) {
 #ifdef PORTFFT_LOG_DUMPS
   if (global_logging_config.log_dumps) {
     std::vector<T> tmp(size);
diff --git a/src/portfft/descriptor.hpp b/src/portfft/descriptor.hpp
index d3435b4b..ab41cc33 100644
--- a/src/portfft/descriptor.hpp
+++ b/src/portfft/descriptor.hpp
@@ -378,7 +378,7 @@ class committed_descriptor {
         // The CT and spec constant factors should match.
         ids = detail::get_ids<detail::workgroup_kernel, Scalar, Domain, SubgroupSize>();
         PORTFFT_LOG_TRACE("Prepared workgroup impl with factor_wi_n:", factor_wi_n, " factor_sg_n:", factor_sg_n,
-                  " factor_wi_m:", factor_wi_m, " factor_sg_m:", factor_sg_m);
+                          " factor_wi_m:", factor_wi_m, " factor_sg_m:", factor_sg_m);
         return {detail::level::WORKGROUP, {{detail::level::WORKGROUP, ids, factors}}};
       }
     }
@@ -421,7 +421,7 @@ class committed_descriptor {
         Idx factor_sg = detail::factorize_sg(static_cast<Idx>(factor_size), SubgroupSize);
         Idx factor_wi = static_cast<Idx>(factor_size) / factor_sg;
         PORTFFT_LOG_TRACE("Subgroup kernel for factor:", factor_size, "with factor_wi:", factor_wi,
-                  "and factor_sg:", factor_sg);
+                          "and factor_sg:", factor_sg);
         param_vec.emplace_back(detail::level::SUBGROUP,
                                detail::get_ids<detail::global_kernel, Scalar, Domain, SubgroupSize>(),
                                std::vector<Idx>{factor_sg, factor_wi});
@@ -715,7 +715,9 @@ class committed_descriptor {
       for (std::size_t i = 1; i < factors.size(); i++) {
         inclusive_scan.push_back(inclusive_scan.at(i - 1) * factors.at(i));
       }
-      PORTFFT_LOG_TRACE("Dimension:", global_dimension, "num_batches_in_l2:", dimensions.at(global_dimension).num_batches_in_l2, "scan:", inclusive_scan);
+      PORTFFT_LOG_TRACE("Dimension:", global_dimension,
+                        "num_batches_in_l2:", dimensions.at(global_dimension).num_batches_in_l2,
+                        "scan:", inclusive_scan);
       dimensions.at(global_dimension).factors_and_scan =
           detail::make_shared<IdxGlobal>(factors.size() + sub_batches.size() + inclusive_scan.size(), queue);
       queue.copy(factors.data(), dimensions.at(global_dimension).factors_and_scan.get(), factors.size());
@@ -1448,7 +1450,8 @@ class committed_descriptor {
                                            kernel_data.level, kernel_data.length, SubgroupSize, kernel_data.factors,
                                            kernel_data.num_sgs_per_wg) *
                                        sizeof(Scalar);
-          PORTFFT_LOG_TRACE("Local mem required:", minimum_local_mem_required, "B. Available: ", local_memory_size, "B.");
+          PORTFFT_LOG_TRACE("Local mem required:", minimum_local_mem_required, "B. Available: ", local_memory_size,
+                            "B.");
           if (static_cast<Idx>(minimum_local_mem_required) > local_memory_size) {
             throw out_of_local_memory_error(
                 "Insufficient amount of local memory available: " + std::to_string(local_memory_size) +
diff --git a/src/portfft/dispatcher/global_dispatcher.hpp b/src/portfft/dispatcher/global_dispatcher.hpp
index 4d7d02c0..2c476912 100644
--- a/src/portfft/dispatcher/global_dispatcher.hpp
+++ b/src/portfft/dispatcher/global_dispatcher.hpp
@@ -147,7 +147,7 @@ struct committed_descriptor<Scalar, Domain>::calculate_twiddles_struct::inner<de
     std::vector<Scalar> host_memory(static_cast<std::size_t>(mem_required_for_twiddles));
     std::vector<Scalar> scratch_space(static_cast<std::size_t>(mem_required_for_twiddles));
     PORTFFT_LOG_TRACE("Allocating global memory for twiddles for workgroup implementation. Allocation size",
-              mem_required_for_twiddles);
+                      mem_required_for_twiddles);
     Scalar* device_twiddles =
         sycl::malloc_device<Scalar>(static_cast<std::size_t>(mem_required_for_twiddles), desc.queue);
 
@@ -324,7 +324,8 @@ struct committed_descriptor<Scalar, Domain>::run_kernel_struct<LayoutIn, LayoutO
       initial_impl_twiddle_offset += 2 * kernels.at(i).batch_size * static_cast<IdxGlobal>(kernels.at(i).length);
     }
     for (std::size_t i = 0; i < num_batches; i += max_batches_in_l2) {
-      PORTFFT_LOG_TRACE("Global implementation working on batches", i, "through", i + max_batches_in_l2, "out of", num_batches);
+      PORTFFT_LOG_TRACE("Global implementation working on batches", i, "through", i + max_batches_in_l2, "out of",
+                        num_batches);
       IdxGlobal intermediate_twiddles_offset = 0;
       IdxGlobal impl_twiddle_offset = initial_impl_twiddle_offset;
       auto& kernel0 = kernels.at(0);
diff --git a/src/portfft/dispatcher/subgroup_dispatcher.hpp b/src/portfft/dispatcher/subgroup_dispatcher.hpp
index b77bee44..166af05e 100644
--- a/src/portfft/dispatcher/subgroup_dispatcher.hpp
+++ b/src/portfft/dispatcher/subgroup_dispatcher.hpp
@@ -595,13 +595,13 @@ struct committed_descriptor<Scalar, Domain>::calculate_twiddles_struct::inner<de
     Idx factor_wi = kernel_data.factors[0];
     Idx factor_sg = kernel_data.factors[1];
     PORTFFT_LOG_TRACE("Allocating global memory for twiddles for subgroup implementation. Allocation size",
-              kernel_data.length * 2);
+                      kernel_data.length * 2);
     Scalar* res = sycl::aligned_alloc_device<Scalar>(
         alignof(sycl::vec<Scalar, PORTFFT_VEC_LOAD_BYTES / sizeof(Scalar)>), kernel_data.length * 2, desc.queue);
     sycl::range<2> kernel_range({static_cast<std::size_t>(factor_sg), static_cast<std::size_t>(factor_wi)});
     desc.queue.submit([&](sycl::handler& cgh) {
       PORTFFT_LOG_TRACE("Launching twiddle calculation kernel for subgroup implementation with global size", factor_sg,
-                factor_wi);
+                        factor_wi);
       cgh.parallel_for(kernel_range, [=](sycl::item<2> it) {
         Idx n = static_cast<Idx>(it.get_id(0));
         Idx k = static_cast<Idx>(it.get_id(1));
@@ -648,8 +648,8 @@ struct committed_descriptor<Scalar, Domain>::run_kernel_struct<LayoutIn, LayoutO
       sycl::stream s{1024 * 16 * 16, 1024 * 8, cgh};
 #endif
       PORTFFT_LOG_TRACE("Launching subgroup kernel with global_size", global_size, "local_size",
-                SubgroupSize * kernel_data.num_sgs_per_wg, "local memory allocation of size", local_elements,
-                "local memory allocation for twiddles of size", twiddle_elements);
+                        SubgroupSize * kernel_data.num_sgs_per_wg, "local memory allocation of size", local_elements,
+                        "local memory allocation for twiddles of size", twiddle_elements);
       cgh.parallel_for<detail::subgroup_kernel<Scalar, Domain, Mem, LayoutIn, LayoutOut, SubgroupSize>>(
           sycl::nd_range<1>{{global_size}, {static_cast<std::size_t>(SubgroupSize * kernel_data.num_sgs_per_wg)}},
           [=
diff --git a/src/portfft/dispatcher/workgroup_dispatcher.hpp b/src/portfft/dispatcher/workgroup_dispatcher.hpp
index 288777fa..dc047550 100644
--- a/src/portfft/dispatcher/workgroup_dispatcher.hpp
+++ b/src/portfft/dispatcher/workgroup_dispatcher.hpp
@@ -316,7 +316,7 @@ struct committed_descriptor<Scalar, Domain>::run_kernel_struct<LayoutIn, LayoutO
       sycl::stream s{1024 * 16 * 8 * 2, 1024, cgh};
 #endif
       PORTFFT_LOG_TRACE("Launching workgroup kernel with global_size", global_size, "local_size",
-                SubgroupSize * kernel_data.num_sgs_per_wg, "local memory allocation of size", local_elements);
+                        SubgroupSize * kernel_data.num_sgs_per_wg, "local memory allocation of size", local_elements);
       cgh.parallel_for<detail::workgroup_kernel<Scalar, Domain, Mem, LayoutIn, LayoutOut, SubgroupSize>>(
           sycl::nd_range<1>{{global_size}, {static_cast<std::size_t>(SubgroupSize * PORTFFT_SGS_IN_WG)}},
           [=
@@ -392,8 +392,9 @@ struct committed_descriptor<Scalar, Domain>::calculate_twiddles_struct::inner<de
         sycl::aligned_alloc_device<Scalar>(alignof(sycl::vec<Scalar, PORTFFT_VEC_LOAD_BYTES / sizeof(Scalar)>),
                                            static_cast<std::size_t>(res_size), desc.queue);
     desc.queue.submit([&](sycl::handler& cgh) {
-      PORTFFT_LOG_TRACE("Launching twiddle calculation kernel for factor 1 of workgroup implementation with global size",
-                factor_sg_n, factor_wi_n);
+      PORTFFT_LOG_TRACE(
+          "Launching twiddle calculation kernel for factor 1 of workgroup implementation with global size", factor_sg_n,
+          factor_wi_n);
       cgh.parallel_for(sycl::range<2>({static_cast<std::size_t>(factor_sg_n), static_cast<std::size_t>(factor_wi_n)}),
                        [=](sycl::item<2> it) {
                          Idx n = static_cast<Idx>(it.get_id(0));
@@ -402,8 +403,9 @@ struct committed_descriptor<Scalar, Domain>::calculate_twiddles_struct::inner<de
                        });
     });
     desc.queue.submit([&](sycl::handler& cgh) {
-      PORTFFT_LOG_TRACE("Launching twiddle calculation kernel for factor 2 of workgroup implementation with global size",
-                factor_sg_m, factor_wi_m);
+      PORTFFT_LOG_TRACE(
+          "Launching twiddle calculation kernel for factor 2 of workgroup implementation with global size", factor_sg_m,
+          factor_wi_m);
       cgh.parallel_for(sycl::range<2>({static_cast<std::size_t>(factor_sg_m), static_cast<std::size_t>(factor_wi_m)}),
                        [=](sycl::item<2> it) {
                          Idx n = static_cast<Idx>(it.get_id(0));
@@ -412,8 +414,8 @@ struct committed_descriptor<Scalar, Domain>::calculate_twiddles_struct::inner<de
                        });
     });
     desc.queue.submit([&](sycl::handler& cgh) {
-      PORTFFT_LOG_TRACE("Launching twiddle calculation kernel for workgroup implementation with global size", n, factor_wi_m,
-                factor_sg_m);
+      PORTFFT_LOG_TRACE("Launching twiddle calculation kernel for workgroup implementation with global size", n,
+                        factor_wi_m, factor_sg_m);
       cgh.parallel_for(sycl::range<3>({static_cast<std::size_t>(n), static_cast<std::size_t>(factor_wi_m),
                                        static_cast<std::size_t>(factor_sg_m)}),
                        [=](sycl::item<3> it) {
diff --git a/src/portfft/dispatcher/workitem_dispatcher.hpp b/src/portfft/dispatcher/workitem_dispatcher.hpp
index 22b23adb..2e26fd90 100644
--- a/src/portfft/dispatcher/workitem_dispatcher.hpp
+++ b/src/portfft/dispatcher/workitem_dispatcher.hpp
@@ -306,7 +306,7 @@ struct committed_descriptor<Scalar, Domain>::run_kernel_struct<LayoutIn, LayoutO
       sycl::stream s{1024 * 16 * 8, 1024, cgh};
 #endif
       PORTFFT_LOG_TRACE("Launching workitem kernel with global_size", global_size, "local_size",
-                SubgroupSize * kernel_data.num_sgs_per_wg, "local memory allocation of size", local_elements);
+                        SubgroupSize * kernel_data.num_sgs_per_wg, "local memory allocation of size", local_elements);
       cgh.parallel_for<detail::workitem_kernel<Scalar, Domain, Mem, LayoutIn, LayoutOut, SubgroupSize>>(
           sycl::nd_range<1>{{global_size}, {static_cast<std::size_t>(SubgroupSize * kernel_data.num_sgs_per_wg)}},
           [=

From 0cb0bd37037d5a03508aa1bdeb136f0cab6cec52 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Tadej=20Ciglari=C4=8D?= <tadej.ciglaric@codeplay.com>
Date: Tue, 30 Jan 2024 14:20:29 +0100
Subject: [PATCH 8/9] one more trace

---
 src/portfft/common/global.hpp | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/src/portfft/common/global.hpp b/src/portfft/common/global.hpp
index 414609e1..80533ebd 100644
--- a/src/portfft/common/global.hpp
+++ b/src/portfft/common/global.hpp
@@ -539,6 +539,9 @@ std::vector<sycl::event> compute_level(
   const IdxGlobal* inclusive_scan = factors_triple + 2 * total_factors;
   const Idx vec_size = storage == complex_storage::INTERLEAVED_COMPLEX ? 2 : 1;
   std::vector<sycl::event> events;
+  PORTFFT_LOG_TRACE("Local mem requirement - input:", local_memory_for_input, "store modifiers", 
+                    local_mem_for_store_modifier, "twiddles", loc_mem_for_twiddles, "total", 
+                    local_memory_for_input + local_mem_for_store_modifier + loc_mem_for_twiddles);
   for (Idx batch_in_l2 = 0; batch_in_l2 < num_batches_in_l2 && batch_in_l2 + batch_start < n_transforms;
        batch_in_l2++) {
     events.push_back(queue.submit([&](sycl::handler& cgh) {

From 91b1673c018c6b2ac876eb38f6e6b941cf5b9e54 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Tadej=20Ciglari=C4=8D?= <tadej.ciglaric@codeplay.com>
Date: Tue, 30 Jan 2024 13:21:01 +0000
Subject: [PATCH 9/9] formatq

---
 src/portfft/common/global.hpp | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/src/portfft/common/global.hpp b/src/portfft/common/global.hpp
index 80533ebd..bc40e55b 100644
--- a/src/portfft/common/global.hpp
+++ b/src/portfft/common/global.hpp
@@ -539,8 +539,8 @@ std::vector<sycl::event> compute_level(
   const IdxGlobal* inclusive_scan = factors_triple + 2 * total_factors;
   const Idx vec_size = storage == complex_storage::INTERLEAVED_COMPLEX ? 2 : 1;
   std::vector<sycl::event> events;
-  PORTFFT_LOG_TRACE("Local mem requirement - input:", local_memory_for_input, "store modifiers", 
-                    local_mem_for_store_modifier, "twiddles", loc_mem_for_twiddles, "total", 
+  PORTFFT_LOG_TRACE("Local mem requirement - input:", local_memory_for_input, "store modifiers",
+                    local_mem_for_store_modifier, "twiddles", loc_mem_for_twiddles, "total",
                     local_memory_for_input + local_mem_for_store_modifier + loc_mem_for_twiddles);
   for (Idx batch_in_l2 = 0; batch_in_l2 < num_batches_in_l2 && batch_in_l2 + batch_start < n_transforms;
        batch_in_l2++) {