不可不知的描述性统计 | Descriptive Statistics

719次阅读
没有评论

共计 2344 个字符,预计需要花费 6 分钟才能阅读完成。

“统计学就像比基尼,你所看到的就是真实显露的,但隐藏起来的才是至关重要的”

–无名氏

不可不知的描述性统计 | Descriptive Statistics

统计是有一些枯燥,但同时也可以很有趣,不是么?

我们知道统计学包括描述性统计推论统计,而今天的主题是描述性统计的介绍。

什么是描述性统计呢?维基百科的定义:

“A descriptive statistic is a summary statistic that quantitatively describes orsummarizes features of a collection of information.”

中文翻译:描述性统计是一种汇总统计,用于定量描述或总结信息集合的特征。

这里把关键词勾划一下:

1、Describe-描述

2、Summarize-总结

注意:描述性统计的对象既可以是总体,也可以总体的一部分即是样本。

不可不知的描述性统计 | Descriptive Statistics

一、描述性统计的分类

描述性统计又分为

  • 集中趋势 Measures of central tendency 
  • 离散趋势 Measures of Dispersion

不可不知的描述性统计 | Descriptive Statistics

1、集中趋势 Measures of Central Tendency

集中趋势又称 “数据的中心位置”,它是一组数据的代表值。集中趋势的概念就是平均数(Average)的概念,它能够对总体的某一特征具有代表性,表明所研究的对象在一定时间、空间条件下的共同性质和一般水平。

常用的集中趋势统计量(statistics)有:

  • 算数均值
  • 中位数
  • 众数

再强调下,在统计学中,这三个统计量都有 average(平均) 的含义。

1、均值 Mean

某组观测值的算术平均数(Arithmetic mean)

2、中位数 Median

按大小顺序排列的数据组之中点位置对应的数值,该数值把数据组分成两半

3、众数 Mode

出现频次最高的观测值。

看起来集中趋势的概念很简单,那么有什么现实价值?

这里我们举两个简化的例子加以说明:

某创业公司A有10个员工,其中1人月薪10万,9人月薪2万;创业公司B也有10个员工,其中1人月薪5万,9人月薪2.5万。

现在假设你要对两家公司员工的收入水平进行对比,你会如何做呢?

通过简单计算我们可得:

公司A:

算术平均 Mean 2.8万;中位数 Median 2万;众数 Mode 2万

公司B:

算术平均 Mean 2.75万;中位数 Median 2.5万;众数 Mode 2.5万

如果看均值 Mean,结果是A公司比B公司高(少数高收入者会把整体平均拉高);如果看中位数 Median,显然B公司更高。

那么应该用Mean还是Median?这取决于我们的目的。

如果我们的目的是研究大多数人的薪资水平,显然用中位数更好,因为B公司90%的人的薪水要高于A公司。

但是在现实生活中,我们往往看到的是用均值mean进行统计说明,尤其是国内媒体,经常用均值来描述某地区某时间段的收入水平。一个不好的结果是,大部分人都会觉得自己“被平均”了。这样做出来的数据固然好看(就像上述公司A),但并不能更准确地展示普通大众真实的收入水平。

看到这里,你应该就能深刻理解“统计学就像比基尼,你所看到的就是真实显露的,但隐藏起来的才是至关重要的”这句话的含义了是不。

不可不知的描述性统计 | Descriptive Statistics

二、离散趋势 Measure of Dispersion

所谓离散趋势就是研究观测值偏离中心值(center) 的程度。仅仅研究集中趋势往往是不够的,所以还需要研究离散趋势Measure of Dispersion.

常用离散统计量有:

  • 极差
  • 标准差(方差)
  • 四分位数间距
  • 变异系数(相对标准差)

1、极差 Range

为一组数据的最大值和最小值之差。极差的计算较简单,但是它只考虑了数据中的最大值和最小值,而忽略了全部观察值之间的差异。极差在SPC控制图中有大量应用。

2、方差或标准差 Variance or Standard deviation

方差和标准差所反映的是一组数据与其均值为代表的中心的平均离散水平。因为标准差的计算应用到每一个变量值,所以,会受到极端值的影响,当数据中有较明显的极端值(outlier)时不宜使用。必须知道这一点,所有方差/标准差分析的前提是:样本总体服从正态分布,如果不服从,就要有补救措施,比如数据转换。

不可不知的描述性统计 | Descriptive Statistics

3、四分位数间距 Inter Quartile Range (IQR)

即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。第三 “四分位数” 与第一 “四分位数” 的差距又称四分位距, 常和中位数一起使用。比如箱型图。

不可不知的描述性统计 | Descriptive Statistics

4、变异系数 Coefficient of Variation (CV)

又叫相对标准差(RSD),变异系数CV是原始数据标准差与原始数据平均数的比。标准差只能度量一组数据对其均值的偏离程度。但若要比较两组数据的离散程度,用两个标准差直接进行比较有时就显得不合适了。例如一个总体的标准差是10,均值是100;如果另有一个总体的标准差是20,均值是2000。如果直接用标准差来进行比较,后一总体的标准差是前一总体标准差的2倍,似乎前一总体的分布集中,而后一总体的分布分散。但前一总体用标准差来衡量的各数据的差异量是其均值的1/10;后一总体用标准差来衡量的各数据差异是其均值的1/100,是微不足道的。可见用标准差与均值的比值大小来衡量不同总体数据的相对分散程度更合理。

不可不知的描述性统计 | Descriptive Statistics

三、图形化工具

前文刚开始我们提到关于描述性统计的两个关键词是 Describe(描述) 和 Summarize(总结);同时我们也介绍了可以通过集中趋势统计量以及离散趋势统计量来对目标数据进行描述、总结。但这些统计量基本都是数学计算,比较抽象,有没有更好的方法呢?

答案是有:Visulization!

没错,那就是一系列的图形化工具。

在Excel软件或者Minitab软件都有很多图形化工具用以描述、总结和展示数据,下面摘选部分:

  • 柱状图
  • 条形图
  • 箱型图
  • 散点图
  • 雷达图
  • 气泡图

不可不知的描述性统计 | Descriptive Statistics

-End-

正文完
 0
评论(没有评论)

汽车质量管理笔记

文章搜索
猜您喜欢
滴定法:镀铜与镀镍成分的精确分析

滴定法:镀铜与镀镍成分的精确分析

01.镀酸铜 硫酸铜 ( CuSO4•5H2O ) 试剂: • 5 mol/L氨水溶液(375 ml/L 25...
NVH-噪声和振动控制工程

NVH-噪声和振动控制工程

来源:汽车技研
检具设计培训资料

检具设计培训资料

转自:检具大师 免责声明:本资料来自网络,版权归作者所有,本资料只能用于学习,如涉及作品版权问题,请第一时间告...
涂层的结合方式以及涂层附着力的影响因素

涂层的结合方式以及涂层附着力的影响因素

一、涂层的附着力的形成 漆膜与基材之间是可以通过(机械结合、物理吸附、氢键、化学键、互相扩散)等作用结合,这些...
各种金属材料成型工艺,看过的SQE都收藏了

各种金属材料成型工艺,看过的SQE都收藏了

一、铸造 液态金属浇注到与零件形状、尺寸相适应的铸型型腔中,待其冷却凝固,以获得毛坯或零件的生产方法,通常称为...
即刻尝鲜
空气悬架高度传感器靠谱吗?

空气悬架高度传感器靠谱吗?

高度传感器在电控悬架系统中,用于检测车身与车轮之间的相对高度,为悬架控制系统提供车身高度信息,以便自动调节车身...
麦格纳工装夹具设计培训教材+要点总结

麦格纳工装夹具设计培训教材+要点总结

工装夹具设计一般是在零件的机械加工工艺过程制订之后按照某一工序的具体要求进行的。制订工艺过程,应充分考虑夹具实...
ISO9001-2026与ISO 9001-2015标准对照表

ISO9001-2026与ISO 9001-2015标准对照表

把新版和 2015 版做了一份对照表,哪些条款变了,哪些只是重新组织结构,哪些地方是真正收紧、以后要重点关注的...
东北大学长篇综述:高熵合金搅拌摩擦焊接与加工中的微观组织与力学性能

东北大学长篇综述:高熵合金搅拌摩擦焊接与加工中的微观组织与力学性能

【研究背景】:高熵合金(HEAs)作为多主元合金体系,近年来因其独特的成分设计、可调控的微观组织以及优异的综合...
车间自检互检制度培训

车间自检互检制度培训

不接受不良品 · 不制造不良品 · 不传递不良品 🎯 培训目标 通过本培训,您将能够: ✅ 理解自检互检制度的...
最新评论
大师兄 大师兄 独立事件和卡方检验,都是非常重要的质量管理概念,挺难理解的。
透彻理解卡方检验 - 汽车质量管理笔记 透彻理解卡方检验 - 汽车质量管理笔记 […] 化简后的式子是我们在卡方检验中需要用到的式子,所以请大家牢记!对于上述式子有疑惑的读者可以学习基础的概率论,也可以参考我之前写的一篇关于独立的文章(《【直观数学】如何理解两事件间的独立关系》)。如果没有问题的话,我们可以进入到卡方检验原理与步骤的主体介绍部分! […]
infinite cui infinite cui 需求VDA6.3 表格,谢谢
大师兄 大师兄 说的挺有道理的,从现实看到的大部分情况,做技术的人都比较直,对技术的一丝不苟,容易在遇到需要展现管理能力的时候,就会表现出短板来。管理需要授权,更多应该思考团队、部门间,人员发展,对未来的变化做出应对等的能力。
大师兄 大师兄 抱歉,暂无PPT可供下载。
john john 如何获得这个PPT文件
大师兄 大师兄 里面确实有一些叫法和我们平时不一样
大师兄 大师兄 这个案例来自一本教科书,短短一页不到的案例描述,有可能漏掉某些细节。我想马自达的员工不会不知道这点,很可能是案例没有提到。马自达的员工更愿意偏离规范不过是这本教科书的猜测罢了。因为象传输系统这么复杂的产品,做得好与做得不好都可能有多个原因。我从另一个案例分析中发现,马自达的最终产品还是比福特的更满足规范要求。 变更控制是必要的。
PeriMasto PeriMasto 这个写的不错,很实用,谢谢!
生产、质量及技术三个难兄难弟的关系 | 汽车质量人小馆 生产、质量及技术三个难兄难弟的关系 | 汽车质量人小馆 […] 附:《生产质量管理十六字精髓》(点击可查具体讲解) […]