超几何分布:公式、方程、模型

最后更新: 2月23,2024
作者: y7rik

超几何分布是一种统计模型,它描述从有限总体中无放回抽取的样本中获得一定成功次数的概率。在该模型中,总体被分为两个不同的类别(成功和失败),并且在不放回被移除元素的情况下选择样本。

超几何分布由三个参数表征:总体规模、总体中的成功次数以及样本规模。使用特定的公式和方程,可以计算出在选定样本中获得一定成功次数的概率。

该模型广泛应用于工业、科学研究和一般决策等各个领域。理解超几何分布及其实际应用,对于从有限总体中选择元素的问题进行统计分析至关重要。

只需几个步骤即可以实用高效的方式计算超几何分布。

为了在短短几步内高效地计算超几何分布,务必遵循以下几个简单的步骤。超几何分布通常用于计算在无放回样本中获得一定数量成功的概率。

首先,需要确定超几何分布的参数: n (样本大小), K (总体成功率) N (人口规模)和 k (样本中期望的成功次数)。

然后使用超几何分布公式来计算准确获得 k 样本中的成功,由以下公式给出:

P(X = k) = (K 选择 k) * ((NK) 选择 (nk)) / (N 选择 n)

其中“选择”代表二项式系数,可以使用公式或专门的软件轻松计算。

最后,计算每个值的概率 k 如果需要,可以创建完整的分布并以实用有效的方式分析结果。

通过遵循这些简单的步骤并使用正确的公式,可以准确、快速地计算超几何分布,从而有助于对不同场景进行统计分析。

在特定的概率情况下何时选择二项分布和泊松分布。

在特定概率情况下选择二项分布和泊松分布时,务必考虑各自的特性。当我们处理的实验具有固定的试验次数,且每次试验只有两种可能的结果(成功或失败)时,会使用二项分布。另一方面,当我们处理在连续的时间或空间区间内计数罕见事件的过程时,泊松分布更合适。

例如,如果我们想知道抛一枚公平硬币5次,恰好出现10次正面的概率,那么二项分布将是理想的选择。如果我们想知道一天内某段道路上发生3起交通事故的概率,那么泊松分布将更为合适。

超几何分布:公式、方程、模型

当我们对在样本中不重复地获得一定数量的成功概率感兴趣时,可以使用超几何分布。它适用于移除一个元素会影响后续元素成功概率的情况。

超几何分布的公式如下:

P(X = k) = (C(n,k) * C(Nn, nk)) / C(N, n)

在哪里:

  • P(X = k) 是样本中恰好获得 k 次成功的概率
  • C(n,k) 是 n 个元素的组合数 kak
  • N 是人口规模
  • n 是样本中的元素数量
  • k 是样本中期望成功的数量

因此,超几何分布是一种有用的工具,用于计算无需重复的样本成功概率,同时考虑到总体元素之间的相互作用。

相关:  结合律:加法、乘法、例子、练习

了解如何以简单的方式计算概率分布。

发现 以简单的方式计算概率分布的方法。 超几何分布 是一种统计模型,描述在无重复情况下,样本中获得一定数量成功的概率。要计算概率分布,可以使用以下公式:

P(X=k) = (C(k,n) * C(Nk, Nn)) / C(N, n)

在哪里:

  • X 是表示成功次数的随机变量
  • k 是样本中期望成功的数量
  • n 是总体中成功的总数
  • N 是人口规模
  • 出租车) 表示组合的数量 a 采取的要素 b a a 分子

利用这个公式,你可以轻松计算出在非重复样本中获得一定成功次数的概率。记住,所有概率的总和必须等于 1,这意味着所有可能成功次数的概率的总和必须等于 1。

超几何分布:公式、方程、模型

A 超几何分布 是一个离散统计函数,适用于计算随机实验中两种可能结果的概率。应用该函数的必要条件是实验总体较小,且提取的样本不重复,概率也并非常数。

因此,当选择总体中的一个元素来了解某个特征的结果(真或假)时,不能再次选择同一个元素。

图 1. 像这样的螺丝,肯定有缺陷的样品。来源:Pixabay

当然,如果前一个元素得出负结果,则下一个选择的元素更有可能得出正确的结果。这意味着概率会随着样本元素的提取而变化。

超几何分布的主要应用是:小群体过程中的质量控制和游戏中的概率计算。

至于定义超几何分布的数学函数,它由三个参数组成,分别是:

– 总体元素数量(N)

– 样本大小(m)

– 整个群体中对所研究特征具有有利(或不利)结果的事件数(n)。

公式和方​​程式

超几何分布公式给出概率 P 的x 出现给定特征的有利情况。根据组合数,数学上写法如下:

在前面的表达式中 N , n e m 是 ex 参数 x 变量本身。

P 的总供奉量为 N.

某个二进制字符在总体中阳性结果的数量是 n.

-样本元素的数量是 m.

在这种情况下, X 是一个随机变量,其值为 x e P(x) 表示发生的概率 x 所研究特征的有利案例。

重要的统计变量

超几何分布的其他统计变量包括:

- 平均的 μ = m * n / N

– 方差 σ^2 = m * (n/N) * (1-n/N) * (Nm) / (N-1)

– 典型偏差 σ, 这是方差的平方根。

型号和属性

为了得到超几何分布模型,我们从获得 x 样本量中的有利案例 m.该样本包含符合所研究属性的元素和不符合所研究属性的元素。

请记住 n 表示总人口中有利案例的数量 N 元素。那么概率将按如下方式计算:

P(x) = (获得方法数 x 失败方法数) / (选择方法总数)

将上述内容以组合数的形式表达出来,可以得到如下的概率分布模型:

超几何分布的主要性质

具体如下:

相关:  如何将带分数加法:从基础到进阶。

– 即使总体很大,样本也应该很小。

– 逐个提取样本元素,而不将它们重新合并到总体中。

– 要研究的属性是二进制的,也就是说,它只能接收两个值: 1 ou 0 , ou .

在元素提取的每一步,概率都会根据之前的结果而变化。

通过二项分布近似

超几何分布的另一个性质是它可以用二项分布来近似,称为 Bi ,因为人口 N 大,至少比样本大 10 倍 m 在这种情况下,它看起来像这样:

P(N,n,m;x)=Bi(m,n/N,x)

只要N较大且N>10m即可适用

例子

范例1

假设一台机器生产螺丝,累计数据表明其中1%为缺陷品。一箱螺丝中N = 500个,则缺陷品数量为:

n = 500 * 1/100 = 5

超几何分布的概率

假设从这个盒子中(即从这个总体中)我们收集了 m = 60 个螺丝的样本。

样本中不存在螺栓(x = 0)的概率为 52,63%。此结果是使用超几何分布函数获得的:

P(500, 5, 60; 0)= 0,5263

样本中 x = 3 个螺钉有缺陷的概率为:P(500, 5, 60; 3) = 0,0129。

另一方面,样本中 4 个螺钉中有 x = 500 个有缺陷的概率为:P (5, 60, 4; 0,0008) = XNUMX。

最后,该样本中 x = 5 个螺钉有缺陷的概率为:P(500, 5, 60; 5) = 0。

但是如果您想知道样本中存在 3 个以上缺陷螺钉的概率,则需要通过以下方式获得累积概率:

P(3) + P(4) + P(5) = 0,0129 + 0,0008 + 0 = 0,0137。

该示例如图 2 所示,是通过使用免费软件获得的 地理几何 ,广泛应用于学校、研究所和大学。

图 2. 超几何分布示例。由 F. Zapata 使用 GeoGebra 绘制。

范例2

一副西班牙纸牌共有40张,其中10张有金币,其余30张没有。假设从这副牌中随机抽出7张,这些牌不会回到牌堆中。

如果 X 是抽出的 7 张牌中的金牌数量,则抽出的 7 张牌中出现金牌的概率由超几何分布 P(40,10,7; x) 给出。

让我们看看以下内容:为了计算抽 4 张牌中出现 7 张金牌的概率,我们使用超几何分布公式,其值如下:

结果是:4.57% 的概率。

但如果你想知道获得 4 张以上牌的概率,你需要添加:

P(4) + P(5) + P(6) + P(7) = 5,20%

已解决的练习

以下练习旨在阐释和理解本文提出的概念。读者在阅读答案之前,务必先尝试自行解答。

练习 1

一家避孕套工厂发现,某台机器每生产1000个避孕套,就有5个有缺陷。为了进行质量控制,工厂随机抽取了100个避孕套,如果发现至少一个或多个缺陷,则该批次产品被拒收。答案:

a) 一批 100 个产品被丢弃的可能性有多大?

b) 该质量控制标准是否有效?

解决方案

此时会出现非常大的组合数,计算起来非常困难,除非有合适的软件包。

但由于总体很大,样本比总体小十倍,因此可以使用二项分布的超几何分布近似:

P(1000,5,100;x)=Bi(100/5,x)=Bi(1000,x)=C(100,x)*0,005^x(100-0,005)^(1-x)

在前面的表达式中, C(100,x) 是一个组合数。存在多个缺陷的概率计算如下:

相关:  垂直线:特征、例子、练习

P(x>=1) = 1 – Bi(0) = 1- 0,6058 = 0,3942

与应用超几何分布获得的值相比,这是一个很好的近似值:0,4102

可以说,有40%的概率,一批100支预防药剂就要被丢弃,效率很低。

然而,如果在质量控制过程中稍微放松一点,只有当第 100 批产品有两个或更多缺陷时才将其丢弃,那么丢弃该批产品的概率就会下降到只有 8%。

练习 2

塑料砌块机的工作原理是,每生产10块,就会有一块变形。在5块的样本中,只有一块有缺陷的概率。

解决方案

人口:N = 10

每个 N 的缺陷数 n:n = 1

样本大小:m = 5

P(10,1,5;1)= C(1,1)* C(9,4)/ C(10,5)= 1 * 126/252 = 0,5

因此,在 50 个样本中,有一个块发生扭曲的可能性为 5%。

练习 3

一组年轻毕业生中有7名女性和6名男性。女生中有4人就读人文学科,3人就读理科。男生中有1人就读人文学科,5人就读理科。请计算以下内容:

a) 随机选择三名女孩:她们都学习人文学科的概率是多少?

b) 如果在朋友聚会中随机选择三名参与者:他们三人,无论性别,都会学习所有三个学科或三个人文学科的可能性有多大?

c) 现在随机选择两个朋友,并将随机变量称为“学习人文学科的人数” x . 在所选的两者之间,确定平均值或预期值 x 以及变异 σ^2。

解决方案

总体是指女生总数:N = 7。学习人文学科的女生占总数的 n = 4。女生的随机样本为 m = 3。

在这种情况下,三人都是人文学科学生的概率由超几何函数给出:

P(N = 7, n = 4, m = 3, x = 3) = C (4, 3) C (3, 0) / C (7, 3) = 0,1143

随机选取三名女孩学习人文学科的可能性为 11,4%。

解决方案 b

现在要使用的价值观是:

-人口:N = 14

– 学习字母的数量是:n = 6 和

-样本大小:m = 3。

-学习人文学科的朋友数量:x

根据此公式,x = 3 表示三人均学习人文学科,而 x = 0 表示无人学习人文学科。三人学习同一学科的概率由下式给出:

P(14, 6, 3, x = 0) + P(14, 6, 3, x = 3) = 0,0560 + 0,1539 = 0,2099

因此,我们有 21% 的机会让三个随机选择的会议参与者研究同一件事。

解决方案 c

这里我们有以下值:

朋友总数为 n = 14,学习人文学科的人口总数为 n = 6,样本量为 m = 2。

希望是:

E(x)= m *(n / N)= 2 *(6/14)= 0,8572

以及变化:

σ(x)^2 = m * (n / N) * (1-n / N) * (Nm) / (N-1) = 2 * (6/14) * (1-6 / 14) * (14-2) / (14-1) =

= 2 * (6/14) * (1-6/14) * (14-2) / (14-1) = 2 * (3/7) * (1-3/7) * (12) / (13) = 0,4521

参考文献

  1. 离散概率分布。摘自:biplot.usal.es
  2. 统计与概率。超几何分布。检索自:proyectodescartes.org
  3. CDPYE-UGR。超几何分布,摘自:ugr.es
  4. Geogebra 经典 Geogebra,概率微积分。检索自 geogebra.org
  5. 轻松尝试。超几何分布的练习题已解答。检索自:probafacil.com
  6. Minitab 超几何分布 摘自:support.minitab.com
  7. 维哥大学。主离散分布。检索自:anapg.webs.uvigo.es
  8. Vitutor 统计与组合学。摘自:vitutor.net
  9. Weisstein, Eric W. 超几何分布。 摘自:mathworld.wolfram.com
  10. 维基百科 超几何分布 摘自:en.wikipedia.com