统计学中的数据的几种分布
重点放前面
一、连续数据概率分布
1. 均匀分布
在 概率论 和 统计学 中,均匀分布也叫矩形分布,它是对称概率分布,在相同长度间隔的分布概率是等可能的。 均匀分布由两个参数a和b定义,它们是数轴上的最小值和最大值,通常缩写为U(a,b)。
2. 正态分布
正态分布(Normal distribution),也称“常态分布”,又名 高斯分布 (Gaussian distribution)。若 随机变量 X服从一个 数学期望 为μ、 方差 为σ2的正态分布,记为N(μ,σ2)。其 概率密度函数 为正态分布的 期望值 μ决定了其位置,其 标准差 σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是 标准正态分布 。
3. t分布
在概率论和统计学中, t -分布 ( t -distribution)用于根据 小样 本来估计呈正态分布且方差未知的总体的 均值 。如果总体方差已知(例如在样本数量足够多时),则应该用正态分布来估计总体均值。t分布曲线形态与n(确切地说与 自由度 df)大小有关。与 标准正态分布 曲线相比,自由度df越小,t分布曲线愈平坦,曲线中间愈低,曲线双侧尾部翘得愈高;自由度df愈大,t分布曲线愈接近 正态分布曲线 ,当自由度df=∞时,t分布曲线为标准正态分布 曲线 。
4. 伽马分布
伽玛分布(Gamma Distribution)是 统计学 的一种连续概率 函数 ,是 概率统计 中一种非常重要的分布。“ 指数分布 ”和“χ2分布”都是伽马分布的特例。Gamma分布中的 参数 α称为形状参数(shape parameter),β称为逆尺度参数。
4.1 指数分布
在概率理论和统计学中,指数分布(也称为 负指数分布 )是描述 泊松过程 中的事件之间的时间的概率分布,即事件以恒定平均速率连续且独立地发生的过程。 这是 伽马分布 的一个特殊情况。 它是 几何分布 的连续模拟,它具有无记忆的关键性质。 除了用于分析泊松过程外,还可以在其他各种环境中找到。 指数函数 的一个重要特征是无记忆性(Memoryless Property,又称遗失记忆性)。这表示如果一个随机变量呈指数 分布 ,当s,t>0时有P(T>t+s|T>t)=P(T>s)。即,如果T是某一元件的寿命,已知元件使用了t小时,它总共使用至少s+t小时的条件概率,与从开始使用时算起它使用至少s小时的概率相等。
4.2 卡方分布
5. 贝塔分布
贝塔分布(Beta Distribution) 是一个作为 伯努利分布 和二项式分布的 共轭先验分布 的 密度函数 ,在机器学习和 数理统计学 中有重要应用。在 概率论 中, 贝塔分布 ,也称 Β分布, 是指一组定义在(0,1) 区间的连续 概率分布 。
二、离散数据概率分布
1. 二项分布
二项分布是由伯努利提出的概念,指的是重复n次独立的伯努利试验,发生的结果只有两个。
特点:
1. 每次试验只有两种可能得结果:“成功”与“失败”,两个结果只会出现一个;
2. 每次试验前,如果“成功”的概率是p,那么“失败”的概率是(1-p);
3. 每次试验相互独立,每次试验结果不受其他各次试验结果的影响
2. 伯努利分布
伯努利分布是二项分布在n=1时的特例.
伯努利分布又称为两点分布, 需要引入伯努利实验.
伯努利试验是只有两种结果的单次随机试验,
进行一次伯努利试验, 成功(X=1)概率为p(0<=p<=1), 失败(X=0)的概率1-p, 则称随机变量X服从伯努利分布
3. 泊松分布
泊松概率分布是在连续时间或空间单位上发生随机事件次数的概率。通俗解释就是基于过去某个随机事件在某段时间或某个空间内发生的平均次数,预测该随机事件在未来同样长的时间或同样大的空间内发生n次的概率。指数分布与泊松分布正好互补。
应用:经常被用于销售较低的商品库存控制,特别是价格昂贵、需求量不大的商品