二项分布

重复n次独立的伯努利试验
收藏
0 有用+1
0
本词条由 中国科学院大学本科部、中国科学院数学与系统科学研究院 参与编辑并审核,经科普中国·科学百科认证 。
在n次独立重复的伯努利试验中,设每次试验中事件A发生的概率为p。用X表示 n重伯努利试验 中事件A发生的次数,则X的可能取值为0,1,…,n,且对每一个k(0≤k≤n),事件X=k即为“n次试验中事件A恰好发生k次”, 随机变量 X的离散 概率分布 即为 二项分布 [1] 。一般地,如果随机变量X服从参数为n和p的二项分布,我们记为X ~ B(n, p)。二项分布的期望E(X)=np, 方差D(X)=np(1-p)。
二项分布的发展历史可以追溯到 16 世纪赌博问题的研究,而真正奠定其理论基础的数学家包括卡达诺、 帕斯卡 费尔马 、詹姆斯·伯努利以及 棣莫弗 [4]
中文名
二项分布 [1]
外文名
Binomial Distribution [1]
别    名
二项式分布
所属学科
数学
相关人物
雅各布·伯努利
应用领域
统计学

定义

播报
编辑
在概率论和统计学中,二项分布是n个独立的成功/失败试验中成功的次数的离散概率分布,其中每次试验的成功概率为p。这样的单次成功/失败试验又称为 伯努利试验 。实际上,当n=1时,二项分布就是 伯努利分布 [2]
二项分布(Binomial Distribution)是统计学中常见的离散概率分布,描述了一系列独立重复 伯努利试验 的成功次数的概率分布。一般地,如果随机变量
服从参数为
的二项分布,我们记为
。n次试验中正好得到k次成功的概率由概率质量函数给出: [2]
式中k=0,1,2,…,n,
二项式系数 (这就是二项分布名称的由来),又记为
或者
。 该公式可以用以下方法理解:我们希望有k次成功(p)和n−k次失败(1 −p)。并且,k次成功可以在n次试验的任何地方出现,而把k次成功分布在n次试验中共有
个不同的方法。 [2] 随机变量
服从二项分布,需要两个重要条件:一是各次试验的条件恒定,保证成功的概率
在各次试验中保持不变;二是各次试验相互独立。下图是不同参数下二项分布的概率分布图。
不同参数下的二项分布概率分布

期望方差

播报
编辑
如果
(也就是说,X是服从二项分布的随机变量),那么X的 期望值 为: [3]
X的 方差 为: [3]
期望的证明如下:
由于二项分布为n重伯努利试验成功次数的概率分布,且每次伯努利试验之间相互独立。我们可以将 X 表示为 n 个独立同分布的 0-1指示变量之和:
其中,
表示第 i 次试验是否成功,每个 服从伯努利分布:
因为
之间相互独立,期望具有可加性,
因此,二项分布的期望为
方差的证明如下:
同样地,令
每个
服从伯努利分布:
由于方差满足可加性(对于独立变量):
由于
相互独立:
因此,二项分布的方差为

协方差

播报
编辑
如果有两个服从二项分布的随机变量X和Y,我们可以求它们的 协方差 。利用协方差的定义,我们有: [2]
E(XY)为当X和Y都等于1时的概率,而E(X)和E(Y)分别为X= 1和Y= 1的概率。定义
为X和Y都等于1的概率,便得到: [2]
对于n次独立的试验,我们便有: [2]
如果X和Y是相同的变量,便化为前文所述的的二项分布方差公式。 [2]

分布特点

播报
编辑
从图1中可以看出,对于固定的n以及p,当k增加时,概率P{X=k}先是随之增加直至达到最大值,随后单调减少。可以证明,一般的二项分布也具有这一性质,且: [1]
  1. 1.
    当(n+1)p不为整数时,二项概率P{X=k}在k=[(n+1)p]时达到最大值; [1]
  2. 2.
    当(n+1)p为整数时,二项概率P{X=k}在k=(n+1)p和k=(n+1)p-1时达到最大值。 [1]
注:[x]为取整函数,即为不超过x的最大整数。 [1]
图1 二项分布概率分布
图2 二项分布概率分布

历史

播报
编辑
二项分布的发展历史可以追溯到 16 世纪赌博问题的研究,而真正奠定其理论基础的数学家包括卡达诺、 帕斯卡 费尔马 、詹姆斯·伯努利以及 棣莫弗 等。

1. 早期赌博问题

意大利数学家卡达诺(G. Cardano, 1501-1576)在 1553 年开始研究 “点子问题”,即关于赌博中赌本如何公平分配的问题。他的研究思路是 “赌博重新开始”,卡达诺认为,赌本分配的公平性和二人最终取胜需赢得的局数有紧密关系。由于在此情况下公平赌博意味着双方所得的期望相等,因此赌注比例等于各自最终获胜概率比例的倒数。假设每局胜负的概率相同,从而推导出赌徒赢得最终胜利的概率 [4] 。虽然他的分配原则存在错误,但这一研究方法影响了后来的数学家们。

2. 帕斯卡与费尔马

17 世纪,法国数学家帕斯卡(Blaise Pascal, 1623-1662) 和费尔马(Pierre deFermat, 1601-1665) 通过通信共同解决了 “点子问题”,这成为概率论的奠基性研究之一 [4]
帕斯卡的方法之一是递归方法,即考虑当前状态下的概率如何影响最终结果。这一思路后来成为二项分布计算的基础。

3. 大数定律

詹姆斯·伯努利(Jacob Bernoulli, 1654-1705) 在他的著作 《推测的艺术》(Ars Conjectandi, 1713)中,对赌博问题进行了深入研究,并提出了 “大数定律”,这成为二项分布的核心理论之一 [4] 。在 《推测的艺术》 中,他证明了如果事件是独立重复试验,并且成功的概率固定,那么随着试验次数的增加,相对频率趋于稳定。这一理论的提出,使得二项分布在统计推断中具有了数学基础。

4.假设检验

阿布思诺特(John Arbuthnot, 1667-1735)在 1712 年发表论文 《神定法则:男女出生性别比例恒定的规律性》,首次将二项分布用于假设检验。阿布思诺特指出: "如果数据显示的不仅是男性出生人数每年超过女性,而是男性始终以恒定比例多于女性;这种现象不仅出现在连续82年的伦敦数据中,而是年复一年持续存在,且在全球范围内普遍显现,那么这便构成了‘神圣法则’的证明。" [4]
他利用二项分布对男性出生率是否等于 1/2 进行检验,提出原假设 P = 1/2,备择假设 P > 1/2,这是统计假设检验的早期雏形。

5. 棣莫弗的正态近似

棣莫弗(Abraham de Moivre, 1667-1754) 是二项分布发展的关键人物之一。他在 1733 年发表的论文 《Approximationad Summam Termonirum Binomii》 中,提出了二项分布的正态近似。他发现当二项分布的试验次数 n 很大时,可以用 正态分布近似二项分布:
这是中心极限定理的早期形式,使得二项分布的计算更加高效,奠定了现代概率统计的基础。

拓展

播报
编辑

泊松分布

在二项分布的伯努利试验中,如果试验次数n很大,二项分布的概率p很小,且乘积 λ=np比较适中,则事件出现的次数的概率可以用泊松分布来逼近 [5] 。在这种条件下,将较难计算的二项分布近似为泊松分布去计算较为方便 [5-6]
泊松定理
泊松定理指出,在独立试验中,以
代表事件
在试验中出现的概率,它与试验总数
有关。如果
,当
时,二项分布的极限为泊松分布 [7] 。下面给出证明。
二项分布,则:
对给定的 k,有:
因此:
泊松分布公式为:
其中
是泊松分布的参数 [7]

正态近似

棣莫弗-拉普拉斯(De Moivre-Laplace)中心极限定理是中心极限定理的一种特例,说明在 n 充分大的情况下,二项分布可以用正态分布近似。
具体来说,若
,当 n 足够大时,X 近似服从正态分布
对随机变量 X 进行标准化变换:
时,Z 近似服从标准正态分布
即: