Chapter 02: Probabilities & Information Theory
在深度学习中,我们经常会遇到不确定性的问题。概率论为我们提供了一套工具,用于量化和处理这种不确定性。信息论则帮助我们理解信息的传递和存储方式。在本章中介绍了这些基本概念,为后续章节的学习打下了坚实的基础。其中,不确定可以大致分为两类:
- Aleatoric Uncertainty (数据不确定性): 也叫做 Intrinsic 或者 Stochastic Uncertainty,这种不确定性源自于数据本身的噪声和随机性。例如,在图像分类任务中,图像可能因为光照、角度等因素而有所不同,导致模型难以准确分类。Aleatoric uncertainty 是不可消除的,因为它是数据固有的属性, 比如 \(\epsilon\) 在Polynomial Regression中的例子
- Epistemic Uncertainty (模型不确定性): 也叫做 Systematic Uncertainty,这种不确定性源自于模型对数据的理解和表示能力的不足。例如,当模型在训练数据上表现良好,但在未见过的数据上表现不佳时,说明模型存在Epistemic uncertainty。通过增加更多的数据或改进模型结构,可以减少这种不确定性。
我们可以使用概率论和信息论的工具来量化和处理这些不确定性,从而提升模型的性能和鲁棒性。首先我们如何定义 Probability 呢?从频率学派(Frequentist View)的角度来看,概率可以被定义为在大量重复实验中某一事件发生的频率。假设我们有一个随机变量 \(X\),它可以取值 \(x_1, x_2, \ldots, x_n\),那么事件 \(X = x_i\) 的概率可以表示为:\[ P(X = x_i) = \lim_{N \to \infty} \frac{N_i}{N} \]其中,\(N\) 是实验的总次数,\(N_i\) 是事件 \(X = x_i\) 发生的次数。 这种定义强调了概率的客观性,即概率是通过实际观察和实验得出的。然而,在实际应用中,我们往往无法进行无限次的实验,因此我们需要使用统计方法来估计概率分布。 另一方面,贝叶斯学派(Bayesian View)则将概率视为对事件发生的不确定性的主观度量。根据贝叶斯观点,概率反映了我们对某一事件发生的信念程度,而不是仅仅依赖于频率。贝叶斯定理是贝叶斯学派的核心,它描述了如何根据新的证据更新我们的信念。贝叶斯定理可以表示为:\[ P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)} \]其中,\(P(A|B)\) 是在事件 \(B\) 发生的条件下事件 \(A\) 发生的概率,\(P(B|A)\) 是在事件 \(A\) 发生的条件下事件 \(B\) 发生的概率,\(P(A)\) 是事件 \(A\) 的先验概率,\(P(B)\) 是事件 \(B\) 的边际概率。 贝叶斯方法允许我们结合先验知识和观察数据,从而更灵活地处理不确定性问题。在深度学习中,贝叶斯方法被广泛应用于模型选择、参数估计和不确定性量化等方面。
接下来,我们具体来看一下概率论
1 The Rules of Probability
概率论中最基本也是最重要的规则就是 Sum Rule 和 Product Rule。基本上,所有的概率计算都可以归结为这两个规则的组合应用。
These two simple rules form the basis for all of the probabilistic machinery that we will use throughout this book. Deep Learning Foundations and Concepts, p. 8
1.1 Sum Rule
Sum Rule 用于计算联合概率分布中的边际概率。假设我们有两个随机变量 \(X\) 和 \(Y\),它们的联合概率分布为 \(P(X, Y)\)。根据 Sum Rule,我们可以通过对另一个变量进行求和来计算边际概率: \[ P(X) = \sum_{y} P(X, Y = y) \]
对于连续随机变量,我们使用积分来代替求和:
\[ P(X) = \int P(X, Y = y) dy \]
Sum Rule 的直观理解是,通过考虑所有可能的 \(Y\) 的取值,我们可以得到 \(X\) 的总概率。
1.2 Product Rule
Product Rule 用于计算联合概率分布中的条件概率。根据 Product Rule,联合概率可以表示为条件概率和边际概率的乘积: \[ P(X, Y) = P(X|Y) \cdot P(Y) \] 同样地,我们也可以交换 \(X\) 和 \(Y\) 的位置: \[ P(X, Y) = P(Y|X) \cdot P(X) \]
Product Rule 的直观理解是,联合事件 \(X\) 和 \(Y\) 的概率可以通过先计算 \(Y\) 发生的概率,然后在 \(Y\) 已经发生的条件下计算 \(X\) 发生的概率来得到。
当然,结合 Sum Rule 和 Product Rule,我们可以推导出更多复杂的概率关系,例如贝叶斯定理。
1.3 Bayes’ Theorem
贝叶斯定理是概率论中的一个重要定理,它描述了如何根据新的证据更新我们的信念。贝叶斯定理可以表示为: \[ P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)} \] 其中,\(P(A|B)\) 是在事件 \(B\) 发生的条件下事件 \(A\) 发生的概率,\(P(B|A)\) 是在事件 $A 发生的条件下事件 \(B\) 发生的概率,\(P(A)\) 是事件 \(A\) 的先验概率,\(P(B)\) 是事件 \(B\) 的边际概率。 贝叶斯定理允许我们结合先验知识和观察数据,从而更灵活地处理不确定性问题。
好的,这种概念很抽象,我们通过一个简单的例子来理解贝叶斯定理的应用。
1.4 Medical Screening Example
假设我们有一个医疗测试,用于检测某种疾病。设事件 \(D\) 表示“患有疾病”,事件 \(T\) 表示“测试结果为阳性”。已知以下信息:
- 该疾病在总体中的患病率为 \(P(D) = 0.01\)(即 1% 的人患有该疾病)。
- 测试的灵敏度(即患病者测试为阳性的概率)为 \(P(T|D) = 0.99\)。
- 测试的特异度(即未患病者测试为阴性的概率)为 \(P(T^c|D^c) = 0.95\),其中 \(T^c\) 表示测试结果为阴性,\(D^c\) 表示未患病。
- 因此,未患病者测试为阳性的概率为 \(P(T|D^c) = 1 - P(T^c|D^c) = 0.05\)。