从一条曼妙的曲线说起

这个世界变差(Variation)无处不在,且因变差而生美。

试想:如果所有人都长得一样,所有的花儿只有一种颜色,所有山峰高度一样,没有季节变换……该是何等恐怖!

 

然而在质量管理领域,我们常听听说,变差(Variation)是质量管理的大敌。

但事实上,“消除变差”只能说是质量管里中一个理想化的、不可实现的目标,因为就像世界上没有两片完全相同的树叶,变差是永远存在并且是不可绝对消除的。

 

因此我们只能尽量去“减少变差”。

那么如何减少变差呢?

 

通过理解概率分布,我们对“变差”会有更深刻的认识;掌握变差之规律,我们才能利用规律,顺势而为。

是的,上一篇推文不可不知的描述性统计 | Descriptive Statistics介绍了一些关于变差的指标(Measures of Variation):均数、中位数、众数、标准差、极差…等等。原本计划此篇介绍推论统计,几经琢磨决定先聊聊概率分布的话题。

 

什么是概率分布?

我们身边每时每刻都有各种事件正在发生:骰子掷出、雨滴落下、巴士到站。

事件发生之后,特定的结果便确定了:掷出3点加4点,今日的降雨量是半英寸,巴士3分钟到站。在事件发生之前,我们只能讨论结果的可能性。

概率分布就是描述的每种结果出现的可能性,所有的可能性加在一起形成“必然”,也就是概率分布的概率之和恒等于1。

 

然而概率分布有数百种,好在实践中经常出现的概率分布只有15种(且都是乡里乡亲关系密切,如下图),今天我们只重点介绍最重要的一种分布:正态分布。

什么是正态分布?

 

正态分布,也称“常态分布”,又名“高斯分布”,英文名有Normal distribution,Gaussian distribution,Law of Errors, 是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。

印有正态分布曲线和高斯的德国货币

正态分布曲线呈两头低,中间高,左右对称;因其呈优雅的钟形,因此人们又经常称之为钟形曲线(Bell curve)。

 

若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。

正太分布函数包含了最重要的两个常数:

自然对数 e, 以及圆周率 π,曲线因此呈现出一种和谐的美感。

 

正态分布之历史

正态分布跟许多大咖都有关系,其中就包括法裔英国数学家棣莫弗、德国数学家高斯、法国数学家拉普拉斯等等。

正态分布最早由棣莫弗在求二项分布的渐近公式中得到,但因当时只是一个雏形并没有引起大家的注意也没有被正式命名.

后来高斯在研究天文观测的测量误差时从另一个角度导出了它,并正式冠以 Normal Distribution .

再后来法国数学家拉普拉斯进一步发展了正态分布,他提出的中心极限定理,使得正态分布的应用变得极其强大从而占据了统计学的中心位置。

 

正态分布为何重要?

 

首先,正太分布揭示这个世界非常多非常多变量的分布规律,比如:

  • 人的身高
  • 汽车零件尺寸
  • 测量误差
  • 血压
  • 考试成绩……

 

其次,在统计理论中,正态分布极其重要。

如果把统计学看作一座大楼,那么正态分布就是大厦下最重要的基石  :

t分布、F分布、卡方分布都是在正态分布的基础上推导出来的;此外,t分布、二项分布、Poisson分布的极限为正态分布,在一定条件下,可以按正态分布原理来处理。

 

68-95-99.7 经验法则

 

由正态分布引申出来的“68-95-99.7”法则又叫又叫 3-sigma 法则,对质量人而言记住上面的函数公式可能有点难也没有太大必要,但理解并记住这个经验法则必大大受益。

 

法则告诉我们,对于正态分布,如上图所示,几乎所有数据都将落在均值的三倍标准差内:

  • 68%的数据将分布在均值的(正负)一个标准偏差之内
  • 95%的数据将分布在均值的(正负)两个标准偏差之内
  • 99.7%的数据将分布在均值的(正负)三个标准偏差之内

 

不得不说的中心极限定理

说到正态分布就不得不说中心极限定理,如前文已经提到 “国数学家拉普拉斯进一步发展了正态分布,他提出的中心极限定理,使得正态分布的应用变得极其强大从而占据了统计学的中心位置”。

心极限定理是概率论中最著名的结果之一,它指出:不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。

中心极限定理不仅提供了计算独立随机变量之和的近似概率的简单方法,而且有助于解释为什么有很多自然群体的经验频率呈现出钟形(即正态)曲线这一事实,因此中心极限定理这个结论使正态分布在数理统计中具有很重要的地位,也使正态分布有了广泛的应用。

 

正态分布与SPC控制图

 

SPC的一个前提是数据要稳定受控,即服从正太分布,否则SPC就不能发挥其预测功能。

前面介绍的 64-95-97.3 经验法则可以解释SPC中的各种判异原则,比如最常见最基本的就是,如果某个值落在了三个标准差之外,那么这个值就极可能是特殊原因导致的异常(导致非正态):

正常情况下一个值落在三个西格玛以外的概率只有0.3%(小概率事件),但是却100%发生了,因此我们推断这是异常导致。

正态曲线蕴含的人生哲学

对于那条美丽的钟形曲线可能大多习以为常,你可曾瞥到其蕴藏着的人生智慧?

对于这一点,就留个白,大家自己悟吧。

标签

发表评论