Assignment 02: Flash Attention & Data Parallelism

在Assignment 02中，我们将实现Flash Attention和Data Parallelism，深入理解如何提升大型语言模型的训练效率和性能。通过这些技术的应用。首先我们会用Flash Attention来优化注意力机制的计算效率，减少内存占用和计算时间。接着，我们将实现Data Parallelism，将模型训练任务分布到多个GPU上，以加速训练过程并处理更大的模型和数据集。完成这两个部分后，我们将能够显著提升大型语言模型的训练效率，为后续的模型开发和应用打下坚实基础。