vllm/csrc/quantization/cutlass_w8a8/common.hpp

#pragma once

#include "cutlass/cutlass.h"
#include <climits>

/**
 * Helper function for checking CUTLASS errors
 */
#define CUTLASS_CHECK(status)                        \
  {                                                  \
    TORCH_CHECK(status == cutlass::Status::kSuccess, \
                cutlassGetStatusString(status))      \
  }

inline uint32_t next_pow_2(uint32_t const num) {
  if (num <= 1) return num;
  return 1 << (CHAR_BIT * sizeof(num) - __builtin_clz(num - 1));
}

inline int get_cuda_max_shared_memory_per_block_opt_in(int const device) {
  int max_shared_mem_per_block_opt_in = 0;
  cudaDeviceGetAttribute(&max_shared_mem_per_block_opt_in,
                        cudaDevAttrMaxSharedMemoryPerBlockOptin,
                        device);
  return max_shared_mem_per_block_opt_in;
}
[Kernel] Add w8a8 CUTLASS kernels (#4749) 2024-05-17 06:32:50 +08:00			`#pragma once`

			`#include "cutlass/cutlass.h"`
[Kernel] Update Cutlass int8 kernel configs for SM80 (#5275) Co-authored-by: Varun Sundar Rabindranath <varun@neuralmagic.com> 2024-06-20 21:33:21 +08:00			`#include <climits>`
[Kernel] Add w8a8 CUTLASS kernels (#4749) 2024-05-17 06:32:50 +08:00
			`/**`
			`* Helper function for checking CUTLASS errors`
			`*/`
			`#define CUTLASS_CHECK(status) \`
			`{ \`
			`TORCH_CHECK(status == cutlass::Status::kSuccess, \`
			`cutlassGetStatusString(status)) \`
			`}`
[Kernel] Update Cutlass int8 kernel configs for SM80 (#5275) Co-authored-by: Varun Sundar Rabindranath <varun@neuralmagic.com> 2024-06-20 21:33:21 +08:00
			`inline uint32_t next_pow_2(uint32_t const num) {`
			`if (num <= 1) return num;`
			`return 1 << (CHAR_BIT * sizeof(num) - __builtin_clz(num - 1));`
			`}`

[BugFix] [Kernel] Add Cutlass2x fallback kernels (#5744) Co-authored-by: Varun Sundar Rabindranath <varun@neuralmagic.com> 2024-06-24 05:07:11 +08:00			`inline int get_cuda_max_shared_memory_per_block_opt_in(int const device) {`
			`int max_shared_mem_per_block_opt_in = 0;`
			`cudaDeviceGetAttribute(&max_shared_mem_per_block_opt_in,`
			`cudaDevAttrMaxSharedMemoryPerBlockOptin,`
			`device);`
			`return max_shared_mem_per_block_opt_in;`
			`}`