About This Website
在2026年春节期间,无聊至极,于是将之前的资料重新整理了一下,组成了这个网站。与之前的网站不一样,这个网站主要是用来记录不同课程,阅读笔记,以及还在进行的100 Paper with Code 系列的。之所以把这个网站命名为“Learning Notes”,是因为我觉得这个名字比较贴切,毕竟这个网站的主要内容就是一些学习笔记。希望这个网站能够帮助到一些正在学习相关课程或者对相关领域感兴趣的人。
为什么在AI时代还要写学习笔记?
随着2023年ChatGPT的爆发,随之而来的是各种各样的AI工具,网络上也充斥着各种AI生成的内容。在这种情况下,也有好多小伙伴私信我说,为什么还要写这种学习的笔记?现在AI这么发达,直接AI总结,生成不就好了吗? 的确,从ChatGPT, 到现在(2026年初)大火的OpenClaw,这些AI工具的确可以帮助我们完成很多任务,但是使用下来,给我带来的是一种空虚感,就好像吃了快餐一样,虽然很方便,但是吃完之后就没有什么满足感了。内容爆炸式的增长,每天被各种信息包围,不断用AI填补空白,但却很难真正消化和理解这些信息。包括现在的Vibe Coding,可以在几分钟内搭建,部署一个可运行的网站,然后呢?我们需要的不是一个可运行的网站,而是一个有价值,有内容的网站。就好像现在的AI工具,可以在几秒钟内生成一篇文章,但是我们需要的不是一篇文章,而是一篇有深度,有见解的文章。所以我觉得,在这个AI时代,写学习笔记依然是非常有必要的。通过写学习笔记,我们可以更好地消化和理解这些信息,真正掌握这些知识,而不是被这些信息所淹没。我尝试过用Claude来收集总结我想要的内容,很厉害,一下子创建出来20多个Markdown文件,内容也是可圈可点,有许多我没有了解过的角度,但是我不能立马吸收里面的内容,就好像囫囵吞枣, 过目就忘, 反而是自己写的笔记,虽然可能不够完美,但是在写的过程中,我需要不断地思考,不断地理解,这样才能真正掌握这些知识。所以我觉得,在这个AI时代,写学习笔记依然是非常有必要的。知其然还要知其所以然,只有真正理解了这些知识,才能更好地应用这些知识,而不是被这些知识所束缚。
第二原因就是,在本科期间,有幸拜读过CS自学指南。我算是它的忠实粉丝了,从它在几百个⭐️的阶段,到现在已经有7万多个⭐️,我都一直在关注它的更新。它的内容非常丰富,涵盖了计算机科学的各个领域,从基础的编程,到算法,再到人工智能,机器学习,深度学习等等。从那时起,我就被它的作者,以及里面涵盖的所有课程的大学,教授的Open Source精神所深深吸引了。也正是因为这个网站,我才有了写学习笔记的想法,希望能够把我在学习过程中积累的一些知识和经验分享给更多的人,帮助他们更好地学习和成长。
网站内容
这个网站主要分为三个部分,分别是:
- 课程笔记:一些之前学过的经典课程的笔记以及总结,比如最近大火的CS336等。
- 阅读笔记:记录经典的书籍,以及里面Exercise的解答,比如Bishop的《Deep Learning Foundations and Concapts》。
- 100 Paper with Code系列: 记录一些经典的论文,以及结合代码实现,对其中的一些重要内容进行总结和分享,比如 Transformer, DINO, CLIP等等。
课程笔记
阅读笔记
100 Paper with Code系列
| Title | Description | Categories |
|---|---|---|
|
01: Attention is All You Need ( |
Transformer 是一种基于 自注意力机制 的深度学习架构,能够并行处理序列,在语言、视觉和多模态任务中表现出色;并且作为 GPT、BERT 等大型语言模型(LLM)的核心基础,推动了当今生成式人工智能的快速发展。在本篇文章中,我们将深入探讨 Transformer 的基本原理,以及关键组件,包括 Word Embedding、Position Embedding、Attention、Normalization Layer 和 Feed Forward Layer。并通过在 Ted Talks 数据集上的实验,展示 Transformer 在实际任务中的应用效果。 | NLP, Architecture, Transformer, ⭐️⭐️⭐️⭐️⭐️ |
|
02: An Image is Worth \(16 \times 16\) Words: Transformers for Image Recognition at Scale ( |
Vision Transformer (ViT) 通过将图像切分为 Patch 并直接应用标准 Transformer 架构,实现了图像分类任务。本文介绍了 ViT 的核心组件,包括 Patch Embedding、Position Embedding、[CLS] Token 以及 Transformer 编码器块,探讨了 ViT 相较于传统 CNN 的归纳偏置差异(Inductive Bias),并展示了 ViT 在大规模数据集上的优异表现。
|
Computer Vision, Transformer |
|
03: Training data-efficient image transformers & distillation through attention ( |
DeiT提出了一种通过知识蒸馏(distillation token 与 attention-based distillation)显著提升 Vision Transformer 数据效率的方法,使 ViT 能在中小规模数据集上高效训练并达到与 CNN 可比的性能。 | Computer Vision, Transformer, Knowledge Distillation |
|
04: Swin Transformer: Hierarchical Vision Transformer using Shifted Windows ( |
Swin Transformer 是一种使用层次化结构和滑动窗口自注意力机制的ViT模型,既保留了局部建模的高效性,又通过窗口偏移实现跨区域信息交互,可作为通用视觉骨干网络,适用于图像分类、目标检测和语义分割等多种视觉任务。 | Computer Vision, Attention, Transformer |
|
05: ViViT: A Video Vision Transformer( |
ViViT: A Video Vision Transformer提出将 Vision Transformer 系统性扩展到视频建模,通过时空分解与高效注意力设计直接对视频序列进行建模,在视频分类等任务上取得强性能与良好可扩展性。 | Computer Vision, Transformer |
|
06: Learning Transferable Visual Models From Natural Language Supervision ( |
一种通过对齐图像与自然语言文本的对比学习框架,在海量图文对上训练统一表示,从而获得强零样本泛化能力的视觉模型。 | Multi Modality, Representation Learning |
|
07: Emerging Properties in Self-Supervised Vision Transformers ( |
一种无需标签的自监督学习方法,通过教师–学生自蒸馏训练 Vision Transformer,自发涌现出语义一致的全局表示与清晰的注意力分割能力。 | Self Supervised Learning, Representation Learning |
|
08: Auto-Encoding Variational Bayes ( |
VAE(变分自动编码器)是一类结合概率图模型与神经网络的生成模型,它通过引入可参数化的近似后验 \(q_\phi(z|x)\) 来摊销推断成本,并用最大化 ELBO 的方式同时学习数据的潜在表示与生成过程:其中重建项确保模型能从潜变量还原数据,KL 项则将潜空间约束为接近先验的连续结构。借助重参数化技巧,VAE 能在端到端训练中高效地学习一个平滑、可采样的潜空间,从而实现表示学习、插值、生成等功能,是现代深度生成模型的重要基础。 | Self Supervised Learning, Generative Model, Representation Learning |
|
09: Masked Autoencoders Are Scalable Vision Learners( |
一种通过随机遮挡大比例图像 patch 并重建缺失内容进行自监督学习的方法,使 Vision Transformer 能以更高效率和更好可扩展性学习通用视觉表示。 | Self Supervised Learning, Representation Learning, AutoEncoder |
|
10: Conditional Image Generation with PixelCNN Decoders ( |
一种基于像素级自回归建模的条件图像生成方法,通过引入门控卷积(Gated CNN)在给定条件(如类别或上下文)下逐像素生成高质量图像。 | Generative Model |
|
11: Neural Discrete Representation Learning ( |
一种通过离散化潜在表示并使用码本进行重构的生成模型,将连续表示转为离散符号,从而学习高质量、可组合的视觉表示并支持高效生成。 | Representation Learning, Self Supervised Learning |
|
15: High-Resolution Image Synthesis with Latent Diffusion Models ( |
一种在低维潜在空间中进行扩散建模的生成方法,在显著降低计算成本的同时,实现高分辨率、高质量的图像生成。 | Generative Model |
|
16: Scalable Diffusion Models with Transformers ( |
一种将 Transformer 架构引入扩散模型的生成方法,通过序列化建模与规模化训练,在大模型与大数据设置下实现更强的生成质量与可扩展性。 | Generative Model, Diffusion Model |
|
FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness( |
FlashAttention 是一IO-aware的exact Attention 实现:它把 QKᵀ 和 softmax 的计算按块(tiling)搬进片上 SRAM/共享内存,用在线 softmax(维护 running max 与 sum 的 log-sum-exp 归一化)在不保存完整注意力矩阵的情况下完成计算,并且通过Recomputing的技术,从而显著减少 HBM 读写、降低显存占用并加速。 | Transformer |
最后
最后,希望这个网站能够帮助到一些正在学习相关课程或者对相关领域感兴趣的人。如果你想要更全面的了解某一方面的知识,我推荐可以去阅读我们的Blog,里面有很多关于不同领域的内容。
当然,由于个人精力有限,网站内容难免有所不足之处,如果你有任何建议或者想要分享的内容,欢迎随时联系我。谢谢!
关于Logo
这个网站的Logo是我家的猫,叫做花花。希望大家在AI的时代,能够像花花一样,保持好奇心和探索精神,不断地学习和成长。也希望这个网站能够成为一个有价值,有内容的网站,帮助更多的人学习和成长。也希望这只可爱的猫咪能够给大家带来一些快乐和温暖。

