vllm/tests/weight_loading/models-large.txt

compressed-tensors, nm-testing/Mixtral-8x7B-Instruct-v0.1-W4A16-quantized, main
compressed-tensors, nm-testing/Mixtral-8x7B-Instruct-v0.1-W4A16-channel-quantized, main
compressed-tensors, nm-testing/Mixtral-8x7B-Instruct-v0.1-W8A16-quantized, main
gptq_marlin, TheBloke/Mixtral-8x7B-v0.1-GPTQ, main
[Misc] Fused MoE Marlin support for GPTQ (#8217) 2024-09-10 11:02:52 +08:00			`compressed-tensors, nm-testing/Mixtral-8x7B-Instruct-v0.1-W4A16-quantized, main`
			`compressed-tensors, nm-testing/Mixtral-8x7B-Instruct-v0.1-W4A16-channel-quantized, main`
[Kernel] Enable 8-bit weights in Fused Marlin MoE (#8032) Co-authored-by: Dipika <dipikasikka1@gmail.com> 2024-09-16 23:47:19 +08:00			`compressed-tensors, nm-testing/Mixtral-8x7B-Instruct-v0.1-W8A16-quantized, main`
			`gptq_marlin, TheBloke/Mixtral-8x7B-v0.1-GPTQ, main`