7类常见的统计分析错误

880次阅读
没有评论

共计 1888 个字符,预计需要花费 5 分钟才能阅读完成。

前段时间,一招聘平台发布《2023中国女性职场现状调查报告》,从薪酬来看,2023年,女性的平均薪酬为8689元/月,与男性的9942元/月相差1253元,报告发布后,立马引起网友热议。
7类常见的统计分析错误
7类常见的统计分析错误
大部分民众对平均工资、平均年终奖、人均GDP是不买账的,为什么?这就是犯了统计上滥用平均值的错误。
01
滥用平均值
问题:
  • 对于偏态数据大多数样本达不到/或远超过平均值水平;
  • 平均值没有代表意义;只看平均值会忽略波动。

原因:

  • 平均值的信息量有限;不能告诉你分布形态和波动;
  • 平均值容易被极端值拉偏;
  • 不同性质的数据被放一起机械的被平均了(需要分层进行分析)。

应对策略:

  • 明确平均值使用的前提条件;正确的应用平均值;
  • 除了关注平均值外,还要搞清楚数据的分布形态;
  • 结合其它指标一起分析(如中位数,极差,标准差等)
滥用平均值的其他案例
1. 专家说,今年全国平均降雨量和去年同期相同,气候正常。(但专家不告诉你北方大旱南方大涝);
2. 武汉常年平均温度17.2°C,昆明常年平均温度17°C,所以武汉和昆明一样气候宜人;
3. A产品不良率为2%,B产品的不良率为0%;AB两个产品的平均不良率是1%?
4. 去年我们一共有50个客诉,平均结案时间是58天,公司规定的目标是60天内要结案;所以我们的结案很准时。
对于偏态分布,平均值不等于中位数
7类常见的统计分析错误
某产品寿命服从正态分布,平均值为10000小时,有50%的产品寿命会大于10000小时。
7类常见的统计分析错误
某产品寿命服从指数分布,平均值为10000小时,只有36.79%的产品寿命会大于10000小时。
计算平均值不要忽略权重
例:已知某产品每个季度的不良率,求全年度平均不良率。
7类常见的统计分析错误
错误答案1:(1.25%+1.14%+1.15%+1.05)/4
错误答案2:(1.25%*1.14%*1.15%*1.05%)^1/4
正确答案1:
(250+240+300+199)/(20000+21000+26000+19000)
正确答案2:
(1.25%*20000+1.14%*21000+1.15%*2
6000+1.05%*19000)/ (20000+210000+26000+19000)
02
接拿样本统计量代替总体参数
问题:
  • 直接拿样本统计量代替总体参数可能会得出错误结论。

分析:

  • 由于抽样误差存在,样本统计量和总体参数之间通常会存在差异;
  • 样本均值通常不会刚好等于总体均值,样本不良率通常不会刚好等于总体不良率
  • 样本标准差通常不会刚好等于总体标准差……

应对策略:

  • 根据样本来推断总体时通常需要用到置信区间或假设检验。
案例一
7类常见的统计分析错误
案例二
7类常见的统计分析错误
03
样本量不足
样本量较小时样本均值或比率波动较大
7类常见的统计分析错误
QE:你看,7号这天原材料不良率太高了,达到停线标准了!你必须把库存都退给供应商!SQE:这几天使用的原材料都是同一供应商同一批次的,平均不良率为0.13%,质量没问题!

案例
现象:

  • 在美国,肾癌发生率最低的县往往位于中西部、南部和西部的农村地区;但肾癌发生率最高的县也往往位于中西部、南部和西部的农村地区。

真实原因:

  • 美国中西部、南部、西部的区域的县的人数很少,以县为单位统计肾癌发生率时样本量较小,发生率波动很大。
7类常见的统计分析错误
04
p>0.05就接受原假设
案例
20世纪70年代,美国为减少红灯时汽车在路口等待造成的汽油浪费,决定评估是否允许红灯时右转。弗吉尼亚公路与运输局研究后报告声称,允许红灯右转后事故发生率没有显著增加(p>0.05)。若干年后研究发现,允许红灯右转后汽车撞毁的频率比以前提高了20%,行人被撞的频率比以前提高了60%。
05
盲目套用正态分布
场景:
  • 我在进行正态性检验时发现我的数据不服从正态分布,怎么办?
  • 我的数据不服从正态分布,我用BOX-COX转换或用Johonson变换后还是不服从正态分布,怎么办?
  • 拿到数据就用正态分布来进行过程能力分析。

问题:

  • 并非所有数据都服从正态分布。

原因:

  • 有很多原因导致数据不服从正态分布;
  • 数据不正态不等于过程不受控;
  • 数据不正态不等于数据造假。

应对对策

  • 数据不服从正态分布时先要分析清楚不服从正态分布的原因,再采取合适对策;
  • 认识到除正态分布外,还有很多可能的分布。
►►►
数据不正态的常见原因
7类常见的统计分析错误
►►►
非正态分布数据过程能力分析
7类常见的统计分析错误
06
错把相关当因果
相关不等于因果,但因果必相关;因果关系是相关关系的子集;相关关系可以为寻找因果关系提供指引和线索;采取改善措施要针对真正的原因来改善,而不是针对相关关系采取措施。
7类常见的统计分析错误
07
回归分析过度外推
错误案例
  • 刚出生的婴儿一个月可以长5cm;如果按这个速度预测,他30岁时可以长到多高?
  • 某公司前年销量增长了10%;去年增长了10%,今年也增长了10%;你能用这个增长速度去预测它20年后的销量吗?
7类常见的统计分析错误
正文完
 0
评论(没有评论)

汽车质量管理笔记

文章搜索
猜您喜欢
SQE,从入门到精通

SQE,从入门到精通

一、SQE基础 1 . 什么是SQE? SQE——Supplier Quality Engineer,是供应商...
通用汽车供应商管理16步法(标杆操作)

通用汽车供应商管理16步法(标杆操作)

1.初级评估 定义: 在进行潜在供应商评估之前,对新的潜在的供应商做一个初步的现场评估,或让供应商自我评估以确...
年底了,质量部罗工为什么要跳槽?这篇文章可能颠覆了你的认知

年底了,质量部罗工为什么要跳槽?这篇文章可能颠覆了你的认知

昨日猎头老王和罗工谈话,老王问他为什么要辞职,罗工说,“我也不想辞职,毕竟在公司工作了三年多最基本的感情还是有...
材料基础:铁碳相图(铁碳状态图)详解

材料基础:铁碳相图(铁碳状态图)详解

铁碳相图,又称铁碳平衡相图或铁碳状态图,是研究铁碳合金在加热和冷却时的结晶过程和组织转变的图解。它以温度为纵坐...
即刻尝鲜
空气悬架高度传感器靠谱吗?

空气悬架高度传感器靠谱吗?

高度传感器在电控悬架系统中,用于检测车身与车轮之间的相对高度,为悬架控制系统提供车身高度信息,以便自动调节车身...
麦格纳工装夹具设计培训教材+要点总结

麦格纳工装夹具设计培训教材+要点总结

工装夹具设计一般是在零件的机械加工工艺过程制订之后按照某一工序的具体要求进行的。制订工艺过程,应充分考虑夹具实...
ISO9001-2026与ISO 9001-2015标准对照表

ISO9001-2026与ISO 9001-2015标准对照表

把新版和 2015 版做了一份对照表,哪些条款变了,哪些只是重新组织结构,哪些地方是真正收紧、以后要重点关注的...
东北大学长篇综述:高熵合金搅拌摩擦焊接与加工中的微观组织与力学性能

东北大学长篇综述:高熵合金搅拌摩擦焊接与加工中的微观组织与力学性能

【研究背景】:高熵合金(HEAs)作为多主元合金体系,近年来因其独特的成分设计、可调控的微观组织以及优异的综合...
车间自检互检制度培训

车间自检互检制度培训

不接受不良品 · 不制造不良品 · 不传递不良品 🎯 培训目标 通过本培训,您将能够: ✅ 理解自检互检制度的...
最新评论
大师兄 大师兄 独立事件和卡方检验,都是非常重要的质量管理概念,挺难理解的。
透彻理解卡方检验 - 汽车质量管理笔记 透彻理解卡方检验 - 汽车质量管理笔记 […] 化简后的式子是我们在卡方检验中需要用到的式子,所以请大家牢记!对于上述式子有疑惑的读者可以学习基础的概率论,也可以参考我之前写的一篇关于独立的文章(《【直观数学】如何理解两事件间的独立关系》)。如果没有问题的话,我们可以进入到卡方检验原理与步骤的主体介绍部分! […]
infinite cui infinite cui 需求VDA6.3 表格,谢谢
大师兄 大师兄 说的挺有道理的,从现实看到的大部分情况,做技术的人都比较直,对技术的一丝不苟,容易在遇到需要展现管理能力的时候,就会表现出短板来。管理需要授权,更多应该思考团队、部门间,人员发展,对未来的变化做出应对等的能力。
大师兄 大师兄 抱歉,暂无PPT可供下载。
john john 如何获得这个PPT文件
大师兄 大师兄 里面确实有一些叫法和我们平时不一样
大师兄 大师兄 这个案例来自一本教科书,短短一页不到的案例描述,有可能漏掉某些细节。我想马自达的员工不会不知道这点,很可能是案例没有提到。马自达的员工更愿意偏离规范不过是这本教科书的猜测罢了。因为象传输系统这么复杂的产品,做得好与做得不好都可能有多个原因。我从另一个案例分析中发现,马自达的最终产品还是比福特的更满足规范要求。 变更控制是必要的。
PeriMasto PeriMasto 这个写的不错,很实用,谢谢!
生产、质量及技术三个难兄难弟的关系 | 汽车质量人小馆 生产、质量及技术三个难兄难弟的关系 | 汽车质量人小馆 […] 附:《生产质量管理十六字精髓》(点击可查具体讲解) […]