flash-attention

History

Tri Dao fa6d1ce44f Add fused_dense and dropout_add_layernorm CUDA extensions		2022-11-13 21:59:20 -08:00
..
flash_attn	Fix out-of-bound memory read	2022-11-09 09:34:14 -08:00
fused_dense_lib	Add fused_dense and dropout_add_layernorm CUDA extensions	2022-11-13 21:59:20 -08:00
fused_softmax	Add Megatron attention implementation for benchmarking	2022-10-23 23:04:16 -07:00
layer_norm	Add fused_dense and dropout_add_layernorm CUDA extensions	2022-11-13 21:59:20 -08:00
rotary	Implement rotary embedding in CUDA	2022-11-04 22:42:01 -07:00
xentropy	Add fused_dense and dropout_add_layernorm CUDA extensions	2022-11-13 21:59:20 -08:00