100 Papers with Code

Note

Due to the large number of papers included in this series. I will mainly write in Chinese to speed up the writing process. If you have any questions or suggestions, please feel free to contact me. Or if you would like to contribute translations of any of the articles into English or other languages, please let me know!

01: Attention is all you need (Transformer)

Transformer

Attention

NLP

Architecture

Transformer 是一种基于自注意力机制的深度学习架构，能够并行处理序列，在语言、视觉和多模态任务中表现出色，并且作为 GPT、BERT 等大型语言模型（LLM）的核心基础，推动了当今生成式人工智能的快速发展。

Yuyang Zhang

02: AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE (Vision-Transformer)

Computer Vision

Transformer

Vision Transformer (ViT) 通过将图像切分为 Patch 并直接应用标准 Transformer 架构，实现了图像分类任务。本文介绍了 ViT 的核心组件，包括 Patch Embedding、Position Embedding、[CLS] Token 以及 Transformer 编码器块，探讨了 ViT 相较于传统 CNN 的归纳偏置差异(Inductive Bias)，并展示了 ViT 在大规模数据集上的优异表现。

Yuyang Zhang

03: Training data-efficient image transformers & distillation through attention (DeiT)

Computer Vision

Transformer

Knowledge Distillation

Training data-efficient image transformers & distillation through attention（DeiT）提出了一种通过知识蒸馏（distillation token 与 attention-based distillation）显著提升 Vision Transformer 数据效率的方法，使 ViT 能在中小规模数据集上高效训练并达到与 CNN 可比的性能。

Yuyang Zhang

04: Swin Transformer: Hierarchical Vision Transformer using Shifted Windows (Swin-Transformer)

Computer Vision

Attention

Transformer

Swin Transformer 是一种使用层次化结构和滑动窗口自注意力机制的ViT模型，既保留了局部建模的高效性，又通过窗口偏移实现跨区域信息交互，可作为通用视觉骨干网络，适用于图像分类、目标检测和语义分割等多种视觉任务。

Yuyang Zhang

05: ViViT: A Video Vision Transformer(ViViT)

Computer Vision

Transformer

ViViT: A Video Vision Transformer提出将 Vision Transformer 系统性扩展到视频建模，通过时空分解与高效注意力设计直接对视频序列进行建模，在视频分类等任务上取得强性能与良好可扩展性。

Yuyang Zhang

06: Learning Transferable Visual Models From Natural Language Supervision (CLIP)

Multi Modality

Representation Learning

一种通过对齐图像与自然语言文本的对比学习框架，在海量图文对上训练统一表示，从而获得强零样本泛化能力的视觉模型。

Yuyang Zhang

07: Emerging Properties in Self-Supervised Vision Transformers (DINO)

Self Supervised Learning

Representation Learning

一种无需标签的自监督学习方法，通过教师–学生自蒸馏训练 Vision Transformer，自发涌现出语义一致的全局表示与清晰的注意力分割能力。

Yuyang Zhang

08: Auto-Encoding Variational Bayes (VAE)

Self Supervised Learning

Generative Model

Representation Learning

VAE（变分自动编码器）是一类结合概率图模型与神经网络的生成模型，它通过引入可参数化的近似后验 \(q_\phi(z|x)\) 来摊销推断成本，并用最大化 ELBO 的方式同时学习数据的潜在表示与生成过程：其中重建项确保模型能从潜变量还原数据，KL 项则将潜空间约束为接近先验的连续结构。借助重参数化技巧，VAE 能在端到端训练中高效地学习一个平滑、可采样的潜空间，从而实现表示学习、插值、生成等功能，是现代深度生成模型的重要基础。

Yuyang Zhang

09: Masked Autoencoders Are Scalable Vision Learners(MAE)

Self Supervised Learning

Representation Learning

AutoEncoder

一种通过随机遮挡大比例图像 patch 并重建缺失内容进行自监督学习的方法，使 Vision Transformer 能以更高效率和更好可扩展性学习通用视觉表示。

Yuyang Zhang

10: Conditional Image Generation with PixelCNN Decoders (Pixel Gated CNN)

Generative Model

一种基于像素级自回归建模的条件图像生成方法，通过引入门控卷积（Gated CNN）在给定条件（如类别或上下文）下逐像素生成高质量图像。

Yuyang Zhang

11: Neural Discrete Representation Learning (VQ_VAE)

Representation Learning

Self Supervised Learning

一种通过离散化潜在表示并使用码本进行重构的生成模型，将连续表示转为离散符号，从而学习高质量、可组合的视觉表示并支持高效生成。

Yuyang Zhang

15: High-Resolution Image Synthesis with Latent Diffusion Models (Latent Diffusion Model)

Generative Model

一种在低维潜在空间中进行扩散建模的生成方法，在显著降低计算成本的同时，实现高分辨率、高质量的图像生成。

Yuyang Zhang

16: Scalable Diffusion Models with Transformers (DiT)

Generative Model

Diffusion Model

一种将 Transformer 架构引入扩散模型的生成方法，通过序列化建模与规模化训练，在大模型与大数据设置下实现更强的生成质量与可扩展性。

Yuyang Zhang

Categories