概率论的基本公理是什么?请详细解释。

最后更新: 12月8,2025
作者: 虚拟教师
  • 柯尔莫哥洛夫公理正式将概率定义为非负的、归一化的、σ-可加性的度量。
  • 从这些公理出发,可以推导出诸如 P(∅)=0、0≤P(A)≤1、加法定律以及与补集的关系等性质。
  • 概率空间(Ω、F、P)、条件概率和独立性等结构直接源于这一公理化框架。

概率论公理

“概率论的公理是什么?”这个问题看似简单,但答案却能引出一个非常严密的数学结构。概率论在20世纪由安德烈·科尔莫戈罗夫的工作开始得到严格的系统组织。这些公理几乎是所有现代概率论的基础,从机会游戏的研究到数据科学、金融和工程中使用的复杂统计模型,都离不开它们。

科尔莫戈罗夫形式化当时,人们对概率的理解更加直观,将其与频率或机会的概念联系起来。不同的数学家采用了不同的解释。今天,当我们谈论概率公理时,我们指的是任何概率函数都必须遵循的一组最基本的规则,这样我们才能进行连贯的计算、避免矛盾并构建强大的定理。

相关文章:
概率公理:类型、解释、示例、练习

基本直觉:随机的经历和事件

要理解概率论的基本公理,第一步是要知道什么是随机实验以及我们所说的事件是什么。随机实验是指任何结果无法确定预测的程序,即使我们知道所有可能的结果;经典的例子是抛硬币或掷骰子。

我们称样本空间(通常用 Ω 表示)为该实验所有可能结果的集合。例如,如果我们抛一枚硬币,样本空间可以写成 Ω = {H, T},其中 H 表示“正面”,T 表示“反面”。Ω 中的每个元素都称为一个基本结果。

事件是指我们有兴趣观察的 Ω 的任何子集。因此,如果实验是抛硬币,则集合 {H} 表示事件“正面朝上”,集合 {T} 表示事件“反面朝上”,而 Ω 本身表示事件“正面或反面朝上”,即一个确定的事件。

有些事件尤其重要:不可能发生的事件、基本事件和必然发生的事件。空集∅表示不可能的事件,因为它不包含任何结果;一个包含单个元素{ω}的集合,其中ω在Ω中,表示一个基本事件;而Ω本身就是必然事件,即在进行实验时总是发生的事件。

集合论的语言对概率论的研究非常有帮助。如果 A 和 B 是事件,那么 A ∩ B 表示 A 和 B 同时发生,A ∪ B 表示 A 和 B 中至少有一个发生,并且 A 的补集,通常写作 ̄A 或 Ω \ A,表示“A 不出现”。这种符号和集合的性质将直接用于公理的表述中。

对概率概念的解释

虽然柯尔莫哥洛夫公理为概率论提供了数学基础,但“概率”一词本身可以有多种解释。从历史上看,对于将数字 P(A) 分配给事件 A 的含义,出现了不同的解释。

在拉普拉斯定理的经典解释中(适用于结果等概率的有限空间),A 的概率是有利情况的数量与可能情况的数量之比。如果样本空间有 n 个等可能的结果(即 #Ω = n),事件 A 包含 n_A 个这样的结果(#A = n_A),那么其概率由 P(A) = n_A / n 给出。当所有结果发生的概率相同时,这个公式非常直观。

已经 频率学派的解释 它将概率与重复实验中观察到的相对频率联系起来。从这个角度来看,我们重复随机实验 n 次,并统计事件 A 发生的次数,记为 n_A;然后我们考察当 n 增大时,分数 n_A / n 的极限。如果这个极限存在,则 A 的概率为 P(A) = lim_{n→∞} (n_A / n)。

还有一种主观解释,广泛用于贝叶斯统计学,在这种解释中,概率与理性主体的信念程度相关。在这种方法中,P(A) 量化了某人对事件 A 发生的信心程度,并考虑了现有知识。并非经验“承载”了概率,而是主体对不确定性进行了连贯的评估。

尽管存在这些不同的解释,但它们都可以在柯尔莫哥洛夫的同一公理框架内共存。换句话说,无论你更喜欢古典的、频率论的还是主观的观点,最终概率都将通过一个函数 P 来数学建模,该函数 P 遵循关于事件空间的一小部分公理。

相关:  整数:属性、例子、练习

形式化构造:概率空间和σ代数

柯尔莫戈罗夫用三元组 (Ω, F, P) 来描述概率,称为概率空间。在这个三元组中,Ω 是样本空间,F 是可能事件的集合(严格来说,是 Ω 的子集的 σ 代数),P 是概率函数。

σ-代数F是Ω的子集的特殊集合,它满足某些性质。一般来说,集合 F 需要包含空集,对补集封闭(如果 A 属于 F,那么它的补集也属于 F),并且对可数并集封闭(如果 A₁, A₂, … 属于 F,那么它们的并集也属于 F)。这种结构确保我们可以在不超出概率明确的事件域的情况下进行集合运算。

形式上,当满足以下条件时,F 是 Ω 上的 σ-代数: 空集∅属于F;如果A属于F,则A在Ω中的补集也属于F;并且如果A₁, A₂, …是F的(有限或可数无限)元素序列,则A₁∪A₂∪…的并集也属于F。在许多情况下,F也被称为Borel域或σ域。

概率函数 P 定义在 F 上,并将 F 中的每个事件 E 赋值为一个非负实数。我们称 P(E) 属于 ℝ,且对于 F 中的所有 E,P(E) ≥ 0。在一般测度论中,测度可以取无穷值,但在标准概率论中,P(E) 始终是有限的,这与更一般的测度存在一些差异。

这种结构 (Ω, F, P),其中 P(Ω) = 1,我们称之为概率空间。条件 P(Ω) = 1 至关重要,因为它代表了这样一个理念:在进行实验时,Ω 中的某些结果必然会发生;样本空间之外不存在“隐藏的结果”。

柯尔莫戈罗夫的三大公理

柯尔莫戈罗夫公理化理论基于任何概率函数都必须满足的三个基本公理。它们表述简单,但威力强大,因为几乎所有常见的概率性质都是由此推导出来的。

第一条公理——非负性: 对于属于σ代数F的任意事件A,我们有P(A)≥0。也就是说,概率永远不会是负数。在一些更奇特的理论中,存在“负概率”的概念,但这些概念偏离了柯尔莫哥洛夫的经典框架。

第二公理——规范化: 某个事件发生的概率等于 1,即 P(Ω) = 1。这条公理确立了 1 代表 100% 确定性,0 代表不可能性的约定。在更简单的版本中,这条公理也可以理解为:Ω 所有基本结果的概率之和等于 1。

第三公理——σ-可加性: 如果 A₁, A₂, … 是一组两两不相交(也称互斥)的事件,则 P(∪ᵢ Aᵢ) = Σᵢ P(Aᵢ)。对于有限事件集和可数无限事件集,此结论均成立。这种可数可加性是其与有限可加性的主要区别。

在较为简单的背景下,一些作者只研究有限可加性。要求对于互不相交的事件 A 和 B,P(A ∪ B) = P(A) + P(B),并且这一要求可以推广到有限个集合。在这种情况下,使用集合代数就足够了,不一定是 σ 代数,但现代概率论的标准方法是要求 σ 可加性。

从这第三条公理出发,可以得出几个重要的结论,例如等式、不等式和概率定律。他也是概率论和测度论之间联系的核心人物,测度论以相当一般的方式研究集合中的测度。

由公理推导出的性质

基于柯尔莫哥洛夫的三条公理,我们证明了几个基本且极其有用的性质。这些性质并非预先假定的:它们是公理的逻辑结果。

概率的单调性是其首要特性之一。如果 A 和 B 是集合 F 中的事件,且 A 包含于 B (A ⊆ B),则 P(A) ≤ P(B)。这个概念很直观:如果 B 包含了 A 中可能发生的一切,甚至更多,那么 B 的概率不可能低于 A。

另一个基本特性是,不可能事件发生的概率为零。从形式上看,利用σ-可加性,我们考虑一个序列,其中E₁ = A,E₂ = B \ A,且对于i ≥ 3,Eᵢ = ∅,其中A ⊆ B。由于Eᵢ互不相交且它们的并集为B,因此概率之和必须收敛于P(B)。如果我们假设P(∅) = a > 0,那么P(∅)的无限次和将趋于无穷大,这与有限的P(B)不相容。因此,我们得出结论:P(∅) = 0。

相关:  如何解含分数的两步方程:完整指南

因此,对于 F 中的任何事件 E,我们可以得出不等式 0 ≤ P(E) ≤ 1。根据第一个公理,我们已经知道 P(E) ≥ 0。已知 P(Ω) = 1,并利用 E ⊆ Ω 的单调性,可知 P(E) ≤ P(Ω) = 1。因此,任何概率都介于 0 和 1 之间(包含 0 和 1)。

常用的一个恒等式是所谓的加性定律,它适用于任意两个事件。对于集合 F 中的事件 A 和 B,有 P(A ∪ B) = P(A) + P(B) − P(A ∩ B)。该公式修正了共同事件 A ∩ B 的“重复计算”问题,即如果我们不进行修正直接将 P(A) 和 P(B) 相加,则该共同事件会被加两次。

另一个重要的结果是事件与其互补事件之间的关系。如果我们用 ̄A 表示 A 的补集,那么 P(̄A) = 1 − P(A)。这个等式表达了“要么 A 发生,要么 A 不发生”的意思,在 Ω 内不存在其他可能性。

由此也可以看出,P(A) = 0 并不一定意味着 A 是不可能发生的事件。从数学角度来说,一个事件的概率可以为零,但集合却不是空集(例如,在连续空间中就会出现这种情况),但在最基本的层面上,P(A) = 0 通常与实际上不可能发生的事件相关。

实际例子:抛硬币

抛硬币是理解柯尔莫哥洛夫公理的一个经典且极具启发性的例子。首先,我们假设硬币只能正面朝上(H)或反面朝上(T),并且这些是唯一可能的结果。

然后我们将样本空间定义为 Ω = {H, T}可能的事件构成一个由{∅, {H}, {T}, {H, T}}组成的σ代数F。在此上下文中,不可能事件是∅,基本事件是{H}和{T},必然事件是{H, T}。

根据柯尔莫哥洛夫公理,我们知道 P(∅) = 0 且 P(Ω) = 1如果我们假设这枚硬币是公平的,也就是说,它不偏袒任何一方,那么对称性表明 P({H}) = P({T})。由于 P({H}) + P({T}) 之和必须等于 1,我们得出结论,正反两面的价值均为 1/2。

因此,得到“正面或反面”的概率为 P({H, T}) = 1出现“正面”的概率为 P({H}) = 1/2,出现“反面”的概率为 P({T}) = 1/2。所有基本事件的概率之和即为该空间的总概率。

虽然这个模型很简单,但它说明了公理在实践中是如何运作的,以及它们是如何防止概率计算中出现不一致的。如果我们不仔细定义样本空间,可能会犯严重的错误,因为任何事件总是 Ω 的一个子集;如果该子集不属于 Ω,则其概率甚至没有定义。

有限可数空间中的概率

当样本空间是有限的或可数的时,概率可以用非常具体的方式来描述。假设 Ω = {ω₁, ω₂, …} 是一个有限或可数的可能结果集。

如果 A 是一个包含其中一些结果的事件,例如 A = {ω₁*, …, ω_{k*}, …}因此,A 的概率可以看作是相应基本事件概率之和:P(A) = P(∪ᵢ {ω_{i*}}) = Σᵢ P({ω_{i*}})。这是对不相交集合的可加性(或 σ-可加性)的直接应用。

在样本空间有限的特殊情况下,即 #Ω = n,且所有结果均等概率。对于每个 i,我们有 P({ωᵢ}) = 1/n。如果 A 包含 Ω 中的 k 个不同结果,则 P(A) = Σ_{i=1}^k P({ω_{i*}}) = k/n = (#A)/(#Ω)。这正是经典拉普拉斯公式在现代公理框架下的重新诠释。

当样本空间是可数无限时,基本事件概率之和仍然需要收敛到 1。也就是说,Σᵢ P({ωᵢ}) = 1。这就是 σ 可加性的优势所在,它不仅允许我们处理有限和,还允许我们处理无限事件序列。

条件概率和公理的作用。

该理论的核心在于理解当我们知道某个事件已经发生时,概率会如何变化。这就涉及到条件概率了,通常写成 P(A | B),意思是“在 B 发生的情况下 A 发生的概率”。

条件概率的基本公式为 P(A | B) = P(A ∩ B) / P(B),前提是 P(B) > 0。该定义与柯尔莫哥洛夫公理一致,事实上,对于每个满足 P(B) > 0 的 B,当我们将事件空间限制在 B 上时,函数 A ↦ P(A | B) 再次满足这三个公理。

这意味着 P(· | B) 本身是“新”样本空间 B 上的概率函数。因此,条件概率的所有基本性质都成立:P(̄A | B) = 1 − P(A | B),P(∅ | B) = 0,条件单调性(如果 A₁ ⊆ A₂,则 P(A₁ | B) ≤ P(A₂ | B)),以及公式 P(A₁ ∪ A₂ | B) = P(A₁ | B) + P(A₂ | B) − P(A₁ ∩ A₂ | B)。

相关:  每个孩子一个轮胎能赚多少钱:公式、始终和工具

条件概率的定义也产生了重要的关系 P(A ∩ B) = P(A) P(B | A),其中 P(A) > 0。对称地,我们可以写出 P(A ∩ B) = P(B) P(A | B),只要 P(B) > 0。这些等式有助于分解联合概率,并且是贝叶斯定理等几个结果的基础。

值得注意的是,“无条件”概率可以看作是条件概率的一个特例。事实上,我们可以写成 P(A) = P(A ∩ Ω) / P(Ω) = P(A | Ω),因为 P(Ω) = 1。这强化了这样一种想法:从概念上讲,所有概率都取决于一些背景信息,即使仅仅是知道我们正在 Ω 内进行操作。

事件的独立性

另一个依赖于公理的关键概念是事件之间的独立性。如果事件 A 和 B 的发生不改变事件 B 的概率,则称这两个事件 A 和 B 是独立的。

用形式语言来说,当 P(A ∩ B) = P(A) P(B) 时,A 和 B 是独立的。就条件概率而言,这意味着如果 P(B) > 0,则 P(A | B) = P(A);如果 P(A) > 0,则 P(B | A) = P(B)。也就是说,知道 B 发生并不会改变 A 发生的概率,反之亦然。

每个事件都独立于不可能事件∅和必然事件Ω。对于空集,P(A ∩ ∅) = 0 且 P(∅) = 0,因此该关系显然成立。对于必然事件,P(A ∩ Ω) = P(A) 且 P(Ω) = 1,因此 P(A ∩ Ω) = P(A) P(Ω) = P(A)。

一个常见的问题是,两个互不相交的事件是否可以相互独立。一般来说,如果事件 A 和 B 互不相交且概率均为正,则 P(A ∩ B) = 0,但 P(A)P(B) > 0,这违反了独立性的定义。因此,在许多情况下,两个概率非零的互不相交事件并非独立事件,因为一个事件的发生排除了另一个事件发生的可能性。

当处理两个以上的事件时,会出现几种不同的独立性概念。我们可以假设两两独立、联合独立以及其他类型的独立性。然而,在所有这些情况下,出发点仍然是基于柯尔莫哥洛夫公理和条件概率定义的关系式 P(A ∩ B) = P(A) P(B)。

概率的实用规则和经典定律

除了形式属性之外,公理还允许制定更多可操作的规律,这对于进行概率计算的人们的日常工作非常有用。其中之一是所谓的加法定律,前面已经提到过 P(A ∪ B) = P(A) + P(B) − P(A ∩ B) 的形式,它可以通过容斥原理扩展到更多事件。

另一个常用的规则是事件与其“外部”部分之间的关​​系。对于集合 F 中的 A 和 B,以下等式成立:P(A ∩ ̄B) = P(A) − P(A ∩ B)。这实际上是将 A 分解为两部分:与 B 同时发生的部分 (A ∩ B) 和不与 B 发生的部分 (A ∩ ̄B)。这两部分互不相交,它们的并集为 A,这由可加性推导出前面的等式。

全概率定律和贝叶斯定理虽然在这里没有完全详细地阐述,但也直接依赖于这些公理。全概率定律将条件概率组合成样本空间的一个划分,而贝叶斯定理“反转”了条件概率,允许根据新的证据更新概率。

在一些更具教学性的版本中,还列出了一些易于记忆的“实用公理”。例如:最大概率为 1(100%);样本空间中所有元素的概率之和等于 1;事件 X 的概率加上“非 X”的概率始终为 1。这些陈述直接反映了形式公理。

有了这套定律,就可以解决从简单的机会游戏到具有许多变量的复杂模型等各种问题。最大的优势在于,在所有公式和计算技巧背后,逻辑支撑仍然是同样的公理三脚架。

柯尔莫哥洛夫概率论公理为处理不确定性提供了一个既严谨又灵活的基础。基于非负性、归一化和 σ 可加性这三个简单的原则,已经构建了一个完整的、丰富的理论,能够包含经典的、频率学派的和主观的解释,处理有限或无限的空间,描述条件概率和独立性,并支持几乎所有科学和技术领域的应用。