Dive into DeepSeek v4

在这篇文章中,我们将深入探讨DeepSeek V4的模型,训练方式以及推理的方式。通过这篇文章,我们将学习现在的SOTA模型,都是如何设计的。在本文中,我们会介绍Compressed Sparse Attention(CSA), Heavily Compressed Attention(HCA), Mainifold-Constrained Hyper-Connections(mHC)等新性的技术。同时我们会了解什么是Muon优化器,并且了解它是如何在大规模的模型训练中发挥作用的。同时会介绍训练和推理的Infrastructure,了解它是如何实现1M Context的推理。
Author

Yuyang Zhang

2026年的4月,DeepSeek发布了他们的DeepSeek V4系列,总共有两个版本,分别是DeepSeek-V4-Pro和DeepSeek-V4-Flash。这两个版本都支持1M的Context,并且在Reasoning和Agentic的能力上,都有很好的表现。在这篇文章中,我们将深入研究DeepSeek V4,了解它为什么可以实现Long-Context,Computing Efficiency和Memory Efficiency。

Figure 1: 左边的图展示了DeepSeek V4在Reasoning和Agentic能力上的表现,右上角的图展示了DeepSeek V4的Computing Efficiency,右下角的图展示了DeepSeek V4的Memory Efficiency。

这篇文章将分成以下几个部分:

1 Model Architecture

Figure 2展示了DeepSeek V4模型的整体架构,主要包括以下几个部分:

  • Compressed Sparse Attention(CSA): 这是一种新的注意力机制,可以在保持模型性能的同时,显著减少计算和内存的需求。
  • Heavily Compressed Attention(HCA): 这是一种进一步压缩注意力机制的方法,可以在更大程度上减少计算和内存的需求。
  • Mainifold-Constrained Hyper-Connections(mHC): 这是一种新的连接方式,可以在保持模型性能的同时,显著减少计算和内存的需求。
  • Mixture-of-Experts(MoE): 这是一种常见的模型架构,可以在保持模型性能的同时,显著减少计算和内存的需求。
Figure 2: Overview of DeepSeek V4 architecture.

需要注意的是,Figure 2 中还有一个Multi-token Prediction(MTP)Head,我们将在Section 3这一章节中介绍它的作用和设计。

那么废话不多说,让我们来看看DeepSeek V4的模型架构的细节。我们将从按照数据流的方向来介绍DeepSeek V4的模型架构,首先是输入,然后是模型的主体,最后是输出。首先是Tokenization和Embedding。

1.1 Tokenization and Embedding

DeepSeek V4的 Tokenization的方法,也是现在主流的Tokenization方法,使用了Byte-Pair Encoding(BPE)(Sennrich, Haddow, and Birch 2016)的方法来进行Tokenization。BPE是一种基于统计的方法,可以在保持模型性能的同时,显著减少Token的数量。在这里我就不过多的介绍了,感兴趣的同学可以去看一下我的这一篇文章。

在这里,我们来看一段例子:一段文字,在经过BPE Tokenization之后,会被分成多个Token,这些Token会被输入到模型中进行处理。比如:

"DeepSeek V4 is a powerful language model."

经过BPE Tokenization之后,可能会被分成以下几个Token:

["Deep", "Seek", "V", "4", "is", "a", "powerful", "language", "model", "."]

其中每个Token都对应着一个ID,比如:

["Deep", "Seek", "V", "4", "is", "a", "powerful", "language", "model", "."]
[123, 456, 789, 1011, 1213, 1415, 1617, 1819, 2021, 2223]

有了这些ID之后,下一步就是将其传入Embedding层进行处理了。Embedding层的作用是将每个Token的ID映射到一个高维的向量空间中,这样模型就可以在这个向量空间中进行计算了。Embedding Layer就是一个巨大的Lookup Table,包含了所有Token的Embedding向量。每个Token的Embedding向量都是一个高维的向量,比如512维或者1024维,这些向量是模型在训练过程中学习到的,可以捕捉到Token之间的语义关系。

通过这两步,我们就将输入的文本转换成了模型可以处理的向量形式了\(x \in \mathbb{R}^{n \times d}\)。接下来,我们就可以将这些向量输入到模型的主体部分进行处理了。首先我们将介绍Attention的部分。

1.2 Hybrid Attention

1.2.1 DeepSeek Sparse Attention(DSA)

1.2.2 Compressed Sparse Attention(CSA)

Figure 3

1.2.3 Heavily Compressed Attention(HCA)

Figure 4

2 Infrastructure

3 Pre-Training

4 Post-Training

5 Casestudy

Back to top

6 Conclusion

Sennrich, Rico, Barry Haddow, and Alexandra Birch. 2016. “Neural Machine Translation of Rare Words with Subword Units.” June 10, 2016. https://doi.org/10.48550/arXiv.1508.07909.