一、参数估计基础-Z分布
在统计应用中,可以把任何一个均数为
,标准差为
的正态分布
转变为
,
的标准正态分布,即将正态变量值
用
来代替,由于
服从正态分布,故
服从标准正态分布
,其中
表示总体的标准差。
特点:
总体的标准差
是一定的。
二、参数估计基础-t分布
实际资料的分析中,
由于
往往未知
,故标准化转换演变为:
,服从
的
分布,即:
。其中
表示样本的标准差,
表示标准误。
统计学家发现,t分布的分布性状是与和样本量息息相关的自由度相对应的。
t 分布曲线特点:
-
分布曲线是单峰分布,它以0为中心,左右对称。
-
分布的形状与样本例数
(自由度
)有关。自由度越小,则
越大,
值越分散,曲线的峰部越矮,尾部则偏高。
-
当
时,则
逼近
,
分布逼近标准正态分布。
-
分布不是一条曲线,而是一簇曲线。
三、参数估计基础-t转换和Z转换的不同
-
转换标准误在一个固定的
上实现的转换。
-
转换是基于和每次抽样结果(
为样本的标准差)有相关关系的标准差,所有相对于基于总体标准差来说,有一定的不确定性。
四、参数估计-点估计
用
样本统计量
直接作为总体参数的估计值。
例
于2000年测得某地27例健康成年男性血红蛋白量的样本均数为125g/L,试估计其总体均数。
,即认为2000年该地所有健康成年男性血红蛋白量的总体均数为125g/L 。
缺陷:
用样本均值测算总体均值完全相等几乎是不可能的,所以我们用一个范围去估计总体参数所在的位置(区间估计)。
五、参数估计-区间估计
按预先给定的概率
估计总体参数的可能范围,该范围就称为总体参数的
置信区间
(confidence interval, CI) 。
预先给定的概率
称为
置信度
,常取95%或99%。如无特别说明,一般取双侧95%。
置信区间由两个数值即
置信限
(下限和上限)构成。
置信水平
是指总体参数值落在样本统计值某一区内的概率(成功率);而
置信区间
是指在某一置信水平下,样本统计值与总体参数值间误差范围。置信区间越大,置信水平越高。
1、总体均数
的区间估计
以下是正态总体抽样得到的均数的分布规律,通过抽样得到的样本均数
和
并不能原丝合缝的相等。
(1)
已知
按标准正态分布原理计算,由
分布,标准正态曲线下有 95%的
值在±1.96之间。
简单运算之后转换为:
95%的双侧置信区间:
99%的双侧置信区间:
,99%的双侧置信区间
通式:
(双侧)
(2)
未知,样本例数
足够大(
)
由
分布可知,自由度越大,
分布越
逼近标准正态分布
,此时
曲线下有 95%的
值在±1.96之间,即:
简单运算之后转换为:
。
95%的双侧置信区间:
99%的双侧置信区间:
通式:
(其中
,
表示样本标准差,
表示样本含量,
是基于样本标准差
的标准误)(双侧)
例
某市2000年随机测量了90名19岁健康男大学生的身高,其均数为172.2cm,标准差为4.5cm,,试估计该地19岁健康男大学生的身高的95%置信区间。
该市19岁健康男大学生的身高的95%置信区间(171.3,173.1) cm。
并不能说该市19岁健康男大学生的平均身高有95%的概率落在区间 (171.3,173.1)里!即不能说这个区间有95%的概率覆盖总体均数。
这是由于平均身高作为总体均值,它是一个常数(客观存在),因此当区间估计完成以后,区间(171.3,173.1)要么覆盖总体均数,要么不覆盖。也就是说,概率为0或1,不会出现其它的概率值。
在一次具体的估计完成之前,一定样本量下的区间估计方法,假如能够重复很多次的话,将有较多的次数,例如95%的次数会成功,有5%的次数会失败,因为在我们完成具体的计算之前,实际上
这个区间估计的上边界和下边界都还是随机变化的。
例
用大量来自同一总体的独立样本对总体均数做估计时,关于95%的置信区间(CI),正确的说法是:A
A.大约有95%的样本的CI覆盖总体均值
B.各个样本估计的CI是相同的
C.对于同一个CI而言,有95%的可能性覆盖总体均数————>>要么覆盖(100%),要么不覆盖(0%)
(3)
未知,且样本例数
较小(
)
由
分布可知,此时某自由度的t曲线下约有 95%的
值在
之间,即:
95%的双侧置信区间:
99%的双侧置信区间:
通式:
(其中
,
表示样本标准差,
表示样本含量,
是基于样本标准差
的标准误)(双侧)
例
已知某地27例健康成年男性血红蛋白量的均数为
,标准差
,试问该地健康成年男性血红蛋白量的95%和99%置信区间。
95%CI:
99%CI:
2、总体概率
的区间估计
总体概率的置信区间与样本含量
、阳性频率
(二项分布)的大小有关,可根据
和
的大小选择以下两种方法。
1、正态近似法
当样本含量足够大,且
和
不太小(通常
和
均
大于或等于5
),则样本率的分布近似正态分布。
为样本率,
为基于样本率的标准误,
。
例:
用某种仪器检查已确诊的乳腺癌患者94例,检出率为78.3%。估计该仪器乳腺癌总体检出率的95%置信区间。
分析:本例样本例数较大,且样本率
不太小,可用正态近似法:
2、 查表法
当
较小,如
≤50,特别是
和
接近0或1时,应按照二项分布的原理估计总体率的可信区间。
例
某医院对39名前列腺癌患者实施开放手术治疗,术后有合并症者2人,试估计该手术合并症发生概率的95%置信区间。
通过查表,该手术合并症发生概率的95%置信区间为[1%,17%]
统计推断包括参数估计和假设检验。参数估计就是用样本指标(统计量)来估计总体指标(参数)。一、参数估计基础-Z分布在统计应用中,可以把任何一个均数为,标准差为的正态分布转变为,的标准正态分布,即将正态变量值用来代替,由于服从正态分布,故服从标准正态分布,其中表示总体的标准差。特点:总体的标准差是一定的。二、参数估计基础-t分布实际资料的分析中,由于往往未知,故标准化转换演变...
u
分布
:指标准正态
分布
,是以0为平均值,以1为标准差的正态
分布
z
分布
:泛指正态
分布
,是以u为平均值,以西格玛为标准差的正态
分布
。对于z
分布
中的所有变量X,转换为(X-U)/西格玛时,其服从u
分布
。即标准正态
分布
。
t
分布
:t
分布
的均值为0
(参考链接):https://www.applysquare.com/topic-cn/TZVQpbknE/
1》t
分布
是正态
分布
的小样...
1.置信区间的计算
根据总体
分布
(T
分布
或者Z
分布
)和规定的置信度计算总体均值在指定置信度下的置信区间,然后将实验值和置信区间比较,若在置信区间之外(小概率事件发生)则表示实验
统计
量和总体
统计
量存在显著差异
1.1 总体方差已知
总体方差已知时,根据总体均值和方差,使用Z
分布
计算置信区间,公式如下:
表示样本均值
常见的假设检验中,AB测试是最为出名的假设检验的过程,而需要深刻理解假设检验,先验知识
统计
量及其抽样
分布
的理解至关重要,这会为我们学习假设检验打下坚实的基础,本文章便是关于
统计
量及其抽样
分布
的讲解。
2.
统计
量
建议专业讲解和大白话结合一起看,更易理解。
2.1 专业讲解
设X1, X2, ..., Xn是从总体X中抽取的容量为n的一个样本,如果由此样本构造一个函数T(X1, X2, ..., Xn),不依赖
参数空间:一个随机变量X的概率密度
分布
是已知的某种函数形式,该函数与未知参数 有关, 可能是Ω 集中的任意值。称 集为参数空间。
概率密度函数可写成如下形式 ,概率密度函数族可表示为 ,Ω 集称为参数空间。给定随机变量X,其
分布
特点服从某种规律性,如正态
分布
、二项
分布
,则其概率
分布
可写成函数形式,通常我们已知某个随机变量可能服从某种
分布
,这种
分布
就可以用概率密度函数族中的某一函数表示,而这一函数又与参数θ 有关。
一、
点估计
1.
点估计
就是用样本
统计
量来估计总体参数。
概念理解:当我们想知道某一总体的某个指标的情况时,测量整体该指标的数值 的工作量太大,或者不符合实际,这时我们可以采用抽样的方法选取一部分样本测量出他们数值,然后用样本
统计
量的值来估计总体的情况。
例如:想了解一个学校学生的身高情况,就可以随机抽取一部分学生测量他们的身高,得到一个平均值,再用这个样本的均值去估计整体学生的身高情况,就是
点估计
...
瑞利
分布
的
参数估计
通常使用最大似然估计法,即对给定的样本数据,选取能最大化该样本数据的概率的参数值作为估计值。
设样本数据为{x1, x2, ..., xn},则似然函数为:
L(σ) = ∏(i=1)^n f(xi) = (∏(i=1)^n xi) / σ^(2n) * exp(-∑(i=1)^n xi^2 / (2*σ^2))
对似然函数求导,得到:
dL(σ)/dσ = -2n/σ + (∑(i=1)^n xi^2)/σ^3
令dL(σ)/dσ = 0,解得:
σ = sqrt(∑(i=1)^n xi^2 / (2n))
因此,瑞利
分布
参数σ的最大似然估计值为:
σ_hat = sqrt(∑(i=1)^n xi^2 / (2n))