正态分布(Normal distribution),也称“常态分布”,又名 高斯分布 (Gaussian distribution),最早由 棣莫弗 (Abraham de Moivre)在求 二项分布 的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在 数学 物理 工程 等领域都非常重要的 概率分布 ,在 统计学 的许多方面有着重大的 影响力
正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为 钟形曲线
随机变量 X服从一个 数学期望 为μ、 方差 为σ 2 的正态分布,记为N(μ,σ 2 )。其 概率密度函数 为正态分布的 期望值 μ决定了其位置,其 标准差 σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是 标准正态分布
正态分布概念是由法国数学家 棣莫弗 (Abraham de Moivre)于1733年首次提出的,后由德国数学家Gauss率先将其应用于天文学研究,故正态分布又叫高斯分布,高斯这项工作对后世的影响极大,他使正态分布同时有了“高斯分布”的名称,后世之所以多将 最小二乘法 的发明权归之于他,也是出于这一工作。 但德国10 马克 的印有高斯头像的钞票,其上还印有正态分布的 密度曲线 。这传达了一种想法:在高斯的一切科学贡献中,其对 人类文明 影响最大者,就是这一项。在高斯刚作出这个发现之初,也许人们还只能从其理论的简化上来评价其优越性,其全部影响还不能充分看出来。这要到20世纪正态 小样本理论 充分发展起来以后。 拉普拉斯 很快得知高斯的工作,并马上将其与他发现的 中心极限定理 联系起来,为此,他在即将发表的一篇文章(发表于1810年)上加上了一点补充,指出如若误差可看成许多量的叠加,根据他的中心极限定理,误差理应有 高斯分布 。这是历史上第一次提到所谓“元误差学说”——误差是由大量的、由种种原因产生的元误差叠加而成。后来到1837年,海根(G.Hagen)在一篇论文中正式提出了这个学说。
其实,他提出的形式有相当大的局限性:海根把误差设想成个数很多的、 独立同分布 的“元误差” 之和,每只取两值,其概率都是1/2,由此出发,按棣莫弗的中心极限定理,立即就得出误差(近似地)服从正态分布。拉普拉斯所指出的这一点有重大的意义,在于他给误差的正态理论一个更自然合理、更令人信服的解释。因为,高斯的说法有一点循环论证的气味:由于算术平均是优良的,推出误差必须服从正态分布;反过来,由后一结论又推出算术平均及最小二乘估计的优良性,故必须认定这二者之一( 算术平均 的优良性,误差的正态性) 为出发点。但算术平均到底并没有自行成立的理由,以它作为理论中一个预设的出发点,终觉有其不足之处。拉普拉斯的理论把这断裂的一环连接起来,使之成为一个和谐的整体,实有着极重大的意义。
由于一般的正态总体其图像不一定关于y 轴对称 ,对于任一正态总体,其取值小于x的概率。只要会用它求正态总体在某个特定区间的概率即可。
为了便于描述和应用,常将正态变量作数据转换。将一般正态分布转化成标准正态分布。
服从标准正态分布,通过查标准正态分布表就可以直接计算出原正态分布的概率值。故该变换被称为标准化变换。(标准正态分布表:标准正态分布表中列出了标准正态曲线下从-∞到X(当前值)范围内的面积比例。)

正态分布 参数含义

正态分布有两个参数,即期望(均数)μ和标准差σ,σ 2 为方差。
正态分布具有两个参数μ和σ^2的 连续型随机变量 的分布,第一参数μ是服从正态分布的随机变量的 均值 ,第二个参数σ^2是此随机变量的 方差 ,所以正态分布记作N(μ,σ 2 )。
μ是正态分布的位置参数,描述正态分布的 集中趋势 位置。概率规律为取与μ邻近的值的概率大,而取离μ越远的值的概率越小。正态分布以X=μ为 对称轴 ,左右完全对称。正态分布的期望、 均数 中位数 、众数相同,均等于μ。
σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数据分布越集中。也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。
“小概率事件” 假设检验 的基本思想: “小概率事件”通常指发生的概率小于5%的事件,认为在一次试验中该事件是几乎不可能发生的。由此可见X落在(μ-3σ,μ+3σ)以外的概率小于千分之三,在实际问题中常认为相应的事件不会发生,基本上可以把区间(μ-3σ,μ+3σ)看作是随机变量X实际可能的取值区间,这称之为正态分布的“3σ”原则。而对于产量更大,试验次数更多的大规模流水线产品,要达到“万无一失”(99.99%)就要取到4σ(99.9936%),而要达到更高的水平,则需要取5σ~6σ长度的半区间,此时误差大约是0.6 ppm ~0.002ppm,这是工业生产中提出的“ 六西格玛 (6σ)”原则(管理学书籍中提及的六西格玛原则的要求是3.4ppm,这个概率值所对的分布大约在半区间长度4.5σ,这是考虑到系统误差造成的均值偏移μ=1.5σ的情况)。
查附表1应注意:①表中曲线下面积为-∞到 u 的左侧累计面积;②当已知μ、σ和 X 时先按式u=(X-μ)/σ求得 u 值,再查表,当μ、σ未知且样本含量 n 足够大时,可用样本均数X1和标准差 S 分别代替μ和σ,按u=(X-X1)/S式求得 u 值,再查表;③曲线下对称于0的区间面积相等,如区间(-∞,-1.96)与区间(1.96,∞)的面积相等,④曲线下横轴上的总面积为100%或1。
图2 正态曲线与标准正态曲线的面积分布
正态分布的应用某些医学现象,如同质群体的身高、红细胞数、血红蛋白量、胆固醇等,以及实验中的随机误差,呈现为正态或近似正态分布;有些资料虽为偏态分布,但经数据变换后可成为正态或近似正态分布,故可按正态分布规律处理。
1、估计频数分布 一个服从正态分布的变量只要知道其均数与标准差就可根据公式即可估计任意取值范围内频数比例。
2、制定参考值范围
(1)正态分布法 适用于服从正态(或近似正态)分布指标以及可以通过转换后服从正态分布的指标。
(2)百分位数法 常用于偏态分布的指标。表3-1中两种方法的单双侧界值都应熟练掌握。
3、质量控制:为了控制实验中的测量(或实验)误差,常以 作为上、下警戒值,以 作为上、下控制值。这样做的依据是:正常情况下测量(或实验)误差服从正态分布。
/4、正态分布是许多统计方法的理论基础。检验、 方差分析 、相关和 回归分析 等多种 统计方法 均要求分析的指标服从正态分布。许多统计方法虽然不要求分析指标服从正态分布,但相应的 统计量 在大样本时近似正态分布,因而大样本时这些 统计推断 方法也是以正态分布为理论基础的。

正态分布 频数分布

例1.10 某地1993年抽样调查了100名18岁男大学生身高(cm),其均数=172.70cm,标准差s=4.01cm,①估计该地18岁男大学生身高在168cm以下者占该地18岁男大学生总数的百分数;②分别求X+-1s、X+-1.96s、X+-2.58s范围内18岁男大学生占该地18岁男大学生总数的实际百分数,并与理论百分数比较。
本例,μ、σ未知但样本含量 n 较大,按式(3.1)用样本均数X和 标准差 S 分别代替μ和σ,求得 u 值, u =(168-172.70)/4.01=-1.17。查附表标准正态曲线下的面积,在表的左侧找到-1.1,表的上方找到0.07,两者相交处为0.1210=12.10%。该地18岁男大学生身高在168cm以下者,约占总数12.10%。其它计算结果见表3。
表3 100名18岁男大学生身高的实际分布与理论分布
分布
x+-s
身高范围(cm)
实际分布
人数
实际分布
百分数(%)
理论分布(%)
X+-1s
168.69~176.71
67
67.00
68.27
X +-1.96s
164.84~180.56
95
95.00
95.00
X+-2.58s
162.35~183.05
99
99.00
99.00

正态分布 综合素质研究

教育统计学 统计规律表明,学生的智力水平,包括学习能力,实际动手能力等呈正态分布。因而正常的考试成绩分布应基本服从正态分布。考试分析要求绘制出学生成绩分布的直方图,以“中间高、两头低”来衡量成绩符合正态分布的程度。其评价标准认为:考生成绩分布情况直方图,基本呈正态曲线状,属于好,如果略呈正(负)态状,属于中等,如果呈严重偏态或无规律,就是差的。
从概率统计规律看,“正常的考试成绩分布应基本服从正态分布”是正确的。但是必须考虑人与物的本质不同,以及教育的有所作为可以使“随机”受到干预,用曲线或直方图的形状来评价考试成绩就有失偏颇。许多教育专家(如上海顾泠沅、美国布鲁姆等)已经通过实践论证,教育是可以大有作为的,可以做到大多数学生及格,而且多数学生可以得高分,考试成绩曲线是偏正态分布的。但是长期受到“中间高、两头低”标准的影响,限制了教师的作为,抑制了多数学生能够学好的信心。这是很大的误会。通常正态曲线有一条对称轴。当某个分数(或分数段)的考生人数最多时,对应曲线的最高点,是曲线的顶点。该 分数值 横轴 上的对应点与顶点连接的 线段 就是该正态曲线的 对称轴 。考生人数最多的值是峰值。我们注意到,成绩曲线或直方图实际上很少对称的,称之为峰线更合适。

正态分布 医学参考值

某些医学现象,如同质群体的身高、红细胞数、 血红蛋白 量,以及实验中的 随机误差 ,呈现为正态或近似正态分布;有些指标(变量)虽服从 偏态分布 ,但经数据转换后的新变量可服从正态或近似正态分布,可按正态分布规律处理。其中经对数转换后服从正态分布的指标,被称为服从对数正态分布。
医学参考值 范围亦称医学正常值范围。它是指所谓“正常人”的解剖、生理、生化等指标的波动范围。制定正常值范围时,首先要确定一批样本含量足够大的“正常人”,所谓“正常人”不是指“健康人”,而是指排除了影响所研究指标的疾病和有关因素的同质人群;其次需根据研究目的和使用要求选定适当的百分界值,如80%,90%,95%和99%,常用95%;根据指标的实际用途确定单侧或双侧界值,如 白细胞 计数过高过低皆属不正常须确定双侧界值,又如肝功中 转氨酶过高 属不正常须确定单侧上界,肺活量过低属不正常须确定单侧下界。另外,还要根据资料的分布特点,选用恰当的计算方法。常用方法有:
(1)正态分布法:适用于正态或近似正态分布的资料。
双侧界值:X+-u(u) S 单侧上界:X+u(u) S ,或单侧下界:X-u(u) S
(2)对数正态分布法:适用于对数正态分布资料。
双侧界值:lg-1[X(lgx)+-u(u)S(lgx)];单侧上界:lg-1[X(lgx)+u(u)S(lgx)],或单侧下界:lg-1[X(lgx)-u(u)S(lgx)]。
常用 u 值可根据要求由表4查出。
(3)百分位数法:常用于偏态分布资料以及资料中一端或两端无确切数值的资料。
双侧界值: P 2.5和 P 97.5;单侧上界: P 95,或单侧下界: P 5。
表4常用 u 值表
参考值范围(%)
单侧
双侧
80
0.842
1.282
90
1.282
1.645
95
1.645
1.960
99
2.326
2.576
统计的理论基础:
如t分布、F分布、分布都是在正态分布的基础上推导出来的,u检验也是以正态分布为基础的。此外,t分布、 二项分布 、Poisson分布的极限为正态分布,在一定条件下,可以按正态分布原理来处理。
概率论中最重要的分布
正态分布有极其广泛的实际背景,生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述。例如,在生产条件不变的情况下,产品的强力、 抗压强度 、口径、长度等指标;同一种生物体的身长、体重等指标;同一种种子的重量;测量同一物体的误差;弹着点沿某一方向的偏差;某个地区的年降水量;以及理想气体分子的速度分量,等等。一般来说,如果一个量是由许多微小的独立随机因素影响的结果,那么就可以认为这个量具有正态分布(见 中心极限定理 )。从理论上看,正态分布具有很多良好的性质 ,许多 概率分布 可以用它来近似;还有一些常用的概率分布是由它直接导出的,例如 对数正态分布 t分布 、F分布等。
主要内涵
在联系自然、社会和思维的实践背景下,我们以正态分布的本质为基础,以 正态分布曲线 及面积分布图为表征(以后谈及正态分布及正态分布论就要浮现此图),进行抽象与提升,抓住其中的主要哲学内涵,归纳正态分布论(正态哲学)的主要内涵如下:
整体论
正态分布启示我们,要用整体的观点来看事物。“系统的整体观念或总体观念是系统概念的精髓。” 正态分布曲线及面积分布图由基区、负区、正区三个区组成,各区比重不一样。用整体来看事物才能看清楚事物的本来面貌,才能得出事物的根本特性。不能只见树木不见森林,也不能以偏概全。此外整体大于部分之和,在分析各部分、各层次的基础上,还要从整体看事物,这是因为整体有不同于各部分的特点。用整体观来看世界,就是要立足在基区,放眼负区和正区。要看到主要方面,还要看到次要方面,既要看到积极的方面还要看到事物消极的一面,看到事物前进的一面还要看到落后的一面。片面看事物必然看到的是 偏态 或者是变态的事物,不是真实的事物本身。
重点论
正态分布曲线及面积分布图非常清晰的展示了重点,那就是基区占68.27%,是主体,要重点抓,此外95%,99%则展示了正态的全面性。认识世界和改造世界一定要抓住重点,因为重点就是事物的主要矛盾,它对事物的发展起主要的、支配性的作用。抓住了重点才能一举其纲,万目皆张。事物和现象纷繁复杂,在千头万绪中不抓住主要矛盾,就会陷入无限琐碎之中。由于我们时间和精力的相对有限性,出于效率的追求,我们更应该抓住重点。在正态分布中,基区占了主体和重点。如果我们结合 20/80法则 ,我们更可以大胆的把正区也可以看做是重点。
发展论
联系和发展是事物发展变化的基本规律。任何事物都有其产生、发展和灭亡的历史,如果我们把正态分布看做是任何一个系统或者事物的发展过程的话,我们明显的看到这个过程经历着从负区到基区再到正区的过程。无论是自然、社会还是人类的思维都明显的遵循这这样一个过程。准确的把握事物或者事件所处的历史过程和阶段极大的有助于掌握我们对事物、事件的特征和性质,是我们分析问题,采取对策和解决问题的重要基础和依据。发展的阶段不同,性质和特征也不同,分析和解决问题的办法要与此相适应,这就是 具体问题具体分析 ,也是解放思想、实事求是、与时俱乐进的精髓。正态发展的特点还启示我们,事物发展大都是渐进的和累积的,走渐进发展的道路是事物发展的常态。例如,遗传是常态,变异是非常态。
总之,正态分布论是科学的世界观,也是科学的方法论,是我们认识和改造世界的最重要和最根本的工具之一,对我们的理论和实践有重要的指导意义。以正态哲学认识世界,能更好的认识和把握世界的本质和规律,以正态哲学来改造世界,能更好的在尊重和利用客观规律,更有效的改造世界。
弗朗西斯·高尔顿 [Francis Galton 1822.02.16-1911.01.17],英国探险家、优生学家、心理学家,差异心理学之父,也是 心理测量学 上生理计量法的创始人。
高尔顿 对心理学的贡献,大概可以归纳未 差异心理学 、心理测量的量化和实验心理学三方面:
心理学研究之量化,始自高尔顿。他发明了许多感官和运动的测试,并以数量代表所测得的心理特质之差异。他认为人的所有特质,不管是物质的还是精神的,最终都可以定量叙述,这是实现人类科学的必要条件,故最先应用统计法处理心理学研究资料,重视数据的平均数与高中差数。他收集了大量资料证明人的心理特质在人口中的分布如同身高、体重那样符合 正态分布曲线 。他在论及遗传对个体差异的影响时,为 相关系数 的概念作了初步提示。如他研究了“居间亲”和其成年子女的身高关系,发现居间亲和其子女的身高有正相关,即父母的身材较高,其子女的身材也有较高的趋势。反之,父母的身材较低,其子女也有较矮的趋势。同时发现子女的身高常与其父母略有差别,而呈现“回中”趋势,即离开其父母的身高数,而回到一般人身高的 平均数
智力、能力
理查德·赫恩斯坦 [(Richard J. Herrnstein 1930.05.20-1994.09.13),美国比较心理学家]和默瑞(Charles Murray)合著《正态曲线》一书而闻名,在该书中他们指出人们的智力呈 正态分布 。智力主要是遗传的并因种族的不同而不同,犹太人、东亚人的智商最高,其次为白人,表现最差的是黑人、西班牙裔人。他们检讨了数十年来心理计量学与政策学的研究成果,发现美国社会轻忽了智商的影响愈变愈大的趋势。他们力图证明,美国现行的偏向于以非洲裔和南美裔为主的低收入阶层的社会政策,如职业培训、大学教育等,完全是在浪费资源。他们利用应募入伍者的测试结果证明,黑人青年的智力低于白人和 黄种人 ;而且,这些人的智力已经定型,对他们进行培训收效甚微。因此,政府应该放弃对这部分人的教育,把钱用于包括所有种族在内的启蒙教育,因为孩子的智力尚未定型,开发潜力大。由于此书涉及黑人的智力问题,一经出版便受到来自四面八方的围攻。
Shaou-Gang Miaou; Jin-Syan Chou. 《Fundamentals of probability and statistics》. 高立图书. 2012: 第147页. 胡泳. 正态分布[J]. 商务周刊, 2009 (24): 94-94. Anderson T W, Anderson T W, Anderson T W, et al. An introduction to multivariate statistical analysis[M]. New York: Wiley, 1958.