Lecture 05 & 06: GPUs, Kernels & Flash Attention

Lecture05介绍了GPU的基本架构与工作原理，并且介绍了几种提升计算效率的方法，比如Kernel Fusion, Memory Coalescing Tiling 等，并且在课程最后介绍了Flash Attention的原理及其实现细节。在Lecture06中，主要介绍了Triton，一个用于编写高性能GPU代码的开源编译器。内容涵盖了Triton的基本概念、编程模型以及如何使用Triton编写高效的GPU内核。通过实际示例，展示了Triton在深度学习中的应用和优势。