Lecture 05 & 06: GPUs, Kernels & Flash Attention
Lecture05介绍了GPU的基本架构与工作原理,并且介绍了几种提升计算效率的方法,比如Kernel Fusion, Memory Coalescing Tiling 等,并且在课程最后介绍了Flash Attention的原理及其实现细节。在Lecture06中,主要介绍了Triton,一个用于编写高性能GPU代码的开源编译器。内容涵盖了Triton的基本概念、编程模型以及如何使用Triton编写高效的GPU内核。通过实际示例,展示了Triton在深度学习中的应用和优势。