diff --git a/README.md b/README.md index 86c6631e..46a35c3b 100644 --- a/README.md +++ b/README.md @@ -1,3 +1,5 @@ +![ALT](/media/fig-09-complete-hierarchy.svg "Complete CUDA GEMM decomposition") + # Introduction CUTLASS is a CUDA C++ template library for implementing matrix-multiply diff --git a/media/fig-09-complete-hierarchy.svg b/media/fig-09-complete-hierarchy.svg new file mode 100644 index 00000000..7251bc75 --- /dev/null +++ b/media/fig-09-complete-hierarchy.svg @@ -0,0 +1,2261 @@ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + image/svg+xml + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +   + +   + + + + + + + + + + + + + + + + + Thread Block Tile + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + Warp Tile Thread Tile Blocked GEMM + + Global memory Shared memory Register File + SM CUDA Cores + + + + + + + + + + + + + + + + + + + + +   + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +   + + + + + + + + + + + + + + + + + + + + + + + + + +   + + + + + + + + + + + + + + + + + + + + + + + + + +   + + + + + + + + + + +