flash-attention

Author	SHA1	Message	Date
Grigory Sizov	f816dee63c	Support unpadded LSE layout (#970 ) * Support unpadded LSE layout. Co-authored-by: Xinfeng Xie <xfxie.ceca@gmail.com> Co-authored-by: Jianyu Huang <hjyahead@gmail.com> * Cleanup * Fix unpadded LSE on split-kv path * Fix formatting and comments * Fix inline vs forceinline --------- Co-authored-by: Xinfeng Xie <xfxie.ceca@gmail.com> Co-authored-by: Jianyu Huang <hjyahead@gmail.com>	2024-06-27 02:38:13 -07:00
Tri Dao	d732be1e67	Update to Cutlass 3.5	2024-05-26 12:49:33 -07:00
Tri Dao	656daef4ea	Use Cute's local_tile to get gQ, gK, gV	2024-04-07 20:10:19 -07:00
ljss	3e9414f1c3	Minor fix in compute_attn_1rowblock_splitkv (#900 )	2024-03-27 19:11:45 -07:00
Tri Dao	54e80a3829	Implement page KV cache Co-authored-by: ljss <450993438@qq.com>	2024-01-22 22:47:30 -08:00
Tri Dao	8f4d82cf5e	Update cutlass to v3.4.0	2024-01-20 22:30:06 -08:00
Tri Dao	395e5a0dba	Move rotary device functions to a separate file	2024-01-20 18:01:18 -08:00
Tri Dao	66a127aef8	Refactor masking in fwd pass into 1 object	2024-01-20 17:39:53 -08:00
Tri Dao	6f706eff96	Make Softmax an object	2024-01-19 16:09:31 -08:00
Tri Dao	4ea866ca19	Make Alibi an object	2024-01-15 00:07:11 -08:00
Tri Dao	df1418f9db	Move softmax_rescale_o to softmax.h	2024-01-14 15:06:06 -08:00
Tri Dao	6777336a1c	Move masking to a separate file (mask.h)	2024-01-14 12:43:47 -08:00
Tri Dao	1274ec3e7e	Move dropout to a separate file (dropout.h)	2024-01-14 12:19:17 -08:00
Tri Dao	10dad61277	apply_dropout now takes tensor of rowcol layout	2024-01-14 01:03:23 -08:00
Tri Dao	a7b66ae25a	Simplify writing softmax to gmem	2024-01-13 00:25:04 -08:00
Tri Dao	8d1b169ed1	Simplify SmemLayoutVtransposed in kernel_traits.h	2024-01-12 11:53:29 -08:00
Tri Dao	5ab9b3667b	Clean up alibi, implement non-causal alibi	2023-12-21 22:27:40 -08:00
Sanghun Cho	e4f726fc44	Support alibi, by Sanghun Cho from Kakao Brain * hard-code alibi in fwd * use params.h as hun_heads * hard-code alibi in bwd * add alibi on/off option * compute alibi_start, ratio outside of kernels * fix minor merge conflict * add test_alibi.py * change apply_alibi() location before masking * add alibi in splitkv kernel * fix backward func # of returns * add out-of-bound check in apply_alibi() * update test_alibi.py * update test_alibi.py for kvcache * simplify alibi parameter interface * fix performance issue by computing alibi outside of branch * update test_flash_attn_varlen_func() for left padding * implement alibi_slopes (b, nh) loading * optimize apply_alibi() a bit * update test cases for alibi_slopes loading * reflect stylistic comments * disable "seqlenq_ngroups_swapped" when using alibi --------- Co-authored-by: monk.detective <monk.detective@kakaobrain.com>	2023-12-19 22:56:06 -08:00
Tri Dao	db2f80692c	Write zero to out / grad if seqlen_q or seqlen_k is zero	2023-11-19 22:20:01 -08:00
Tri Dao	e279bf8ed9	[Gen] Accept cache_batch_idx to index into the KV cache	2023-10-03 16:27:26 -07:00
Tri Dao	083e8f525f	Implement local attention Co-authored-by: Timothee Lacroix <t@mistral.ai>	2023-09-26 16:31:08 -07:00
Tri Dao	2d8ea9a530	Swap seqlen_q and ngroups when seqlen_q=1 (h/t Daniel Haziza)	2023-09-20 23:38:22 -07:00
Tri Dao	ccbb14f38e	Implement rotary embedding in flash_attn_with_kvcache	2023-09-16 01:20:16 -07:00
Tri Dao	56b7fc6ee0	Simplify the implementation of KVcache attn by appending KV first	2023-09-13 15:55:48 -07:00
Tri Dao	bb9beb3645	Remove some unused headers	2023-09-12 12:37:10 -07:00
Tri Dao	ee77b931b9	Swap seqlen_q and nheads for MQA to speed it up (h/t Daniel Haziza)	2023-09-10 22:56:33 -07:00
Tri Dao	37c6e05406	Implement flash_attn_with_kvcache	2023-09-04 00:11:44 -07:00
Tri Dao	1dc1b6c8f2	Bump to v2.1.2	2023-09-03 22:23:05 -07:00
Tri Dao	26d7d92f3d	Fix splitKV combine function when local LSEs are all -inf	2023-09-03 11:39:09 -07:00
Tri Dao	31920dda5f	Fix typo with lse_max == -INFINITY	2023-08-29 21:48:59 -07:00
Tri Dao	b1fbbd8337	Implement splitKV attention	2023-08-29 00:58:29 -07:00
Tri Dao	9e5e8bc91e	Change causal mask to be aligned to bottom-right instead of top-left	2023-08-24 23:41:07 -07:00
BoxiangW	e07aa036db	Support flash attention 2 with causal masking when KV's seq length is longer than Q's seq length. (#436 )	2023-08-24 16:42:34 -07:00
Tri Dao	3524e13c11	Update to Cutlass 3.1	2023-08-13 13:53:17 -07:00
Kirthi Shankar Sivamani	a03f6f8e9e	Enable CUDA graphs (#386 ) * Add RNG state to kernel launch params Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * Save seed and offset for backward Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * Single thread write to global mem Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * compute_dq_dk_dv_1colblock get seed and offset from launch params Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * compute_dq_dk_dv_1rowblock get seed and offset from launch params Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * Change forward c++ APIs to save RNG state for backward Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * Change backward c++ APIs to set RNG state for bprop launcher Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * Bug fixes Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * Python side API changes Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * Bug fix; only save seeds instead of full offset Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * Account for 3D grid size Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> --------- Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>	2023-07-27 16:11:34 -07:00
Tri Dao	4f285b3547	FlashAttention-2 release	2023-07-17 06:21:34 -07:00

36 Commits