透彻理解卡方检验

1,698次阅读
一条评论

共计 2422 个字符,预计需要花费 7 分钟才能阅读完成。

在非医学统计的大多数应用统计课程中,间断变量(Categorical Variables)统计方法一直是一个相对被轻视的部分,而卡方检验作为一种重要的间断变量关系的假设检验方法,也常常被比较简略和机械化地介绍和讲解。我在过去学过很多次卡方检验,一般卡方检验的讲解内容会把步骤写得很详细,但缺乏引导你理解每一步为什么这样做的材料,导致我每次学完一阵子后都会忘记。今天这篇文章,我就来讲讲卡方检验的步骤,以及每一个步骤后的原因,帮助大家透彻地理解卡方检验!

卡方检验解决的问题类型

我们首先来看卡方检验用于什么类型的问题。先给出本篇文章所要使用的例子,假如我们现在想调查个体收入水平是否会影响其对税收上调政策的态度(赞同或反对)。这时,我们一方面可以将收入水平视为连续变量,将对政策的态度视为二分变量,拟合一个logistic回归模型;另一方面,我们也可以将人群分为低收入,中等收入和高收入三个人群,也就是将收入水平视为类别变量(水平数为3),这时我们就需要卡方检验来检验两个Categorical Variables之间是否存在联系(association)了!

所以,只要我们有两个类别变量,并且我们想要调查这两个类别变量是否独立,卡方检验就能够帮助我们完成这样的任务。下面我们来看看当我们谈论两个类别变量独立的时候,从数学的角度看,我们到底在谈论什么。

两变量相互独立

假如A代表上述的收入水平,并且A会有三个取值,代表三种收入水平:

透彻理解卡方检验

我们分别用P(A=a)来表示某个个体为对应收入水平的概率。举个例子,假如P(A=1)=0.3,就意味着在总体中抽取一个个体,该个体低收入的概率为30%。在以下内容中,我会以P(A)作为P(A=a)的简写。

同理,我们可以构建如下的态度变量B

透彻理解卡方检验

同理,我们也可以P(B=b)来表示某个个体对税收上调政策赞同或反对的概率。在以下内容中,我会以P(B)作为P(B=b)的简写。

在概率论中,假如变量AB独立,我们可以得出:

透彻理解卡方检验

上述式子可以进一步化简为:

透彻理解卡方检验

化简后的式子是我们在卡方检验中需要用到的式子,所以请大家牢记!对于上述式子有疑惑的读者可以学习基础的概率论,也可以参考我之前写的一篇关于独立的文章(《【直观数学】如何理解两事件间的独立关系》)。如果没有问题的话,我们可以进入到卡方检验原理与步骤的主体介绍部分!

卡方检验原理

基于上述例子,我们现在给出相关调查的详细数据:

低收入 中等收入 高收入 总人数
支持 213 203 182 598
反对 138 130 154 402
351 313 336 1000

我们现在想要验证的问题是:个体对税收上调政策的态度是否独立于其收入水平。严格地讲,这时我们的零假设是:个体对税收上调政策的态度独立于其收入水平;备择假设是:个体对税收上调政策的态度不独立于其收入水平。结合假设检验的基本逻辑,我们可以先构建假如零假设为真下的“理想情况”,再计算现实情况(所观测数据)与这一“理想情况”之间的差距,进而得出结论

通过第二部分,我们知道当零假设为真时,上述化简后的式子成立。通俗地说,就是某个个体居于某个收入水平并且持特定态度的概率,等于其居于某个收入水平的概率乘以其持特定态度的概率。举个例子,假如个体对税收上调政策的态度独立于其收入水平,则某个个体为中等收入并且对税收上调政策持反对态度的概率,将会等于其为中等收入的概率乘以其对税收上调政策持反对态度的概率。

如何估计P(A),也就是某个体为特定收入水平的概率呢?我们可以通过受调查人群中每个收入水平人数所占比例来估计。因此,我们可以做出如下运算与估计:

透彻理解卡方检验

同理,为了估计P(B),也就是某个体对税收上调政策态度的概率,我们同样可以通过受调查人群中两种态度人群所占比例来估计:

透彻理解卡方检验

现在我们已经拥有了所有P(A)P(B)的估计值,假如零假设为真(个体对税收上调政策的态度独立于其收入水平),我们就可以进行如下计算:

透彻理解卡方检验

完成上述诸多计算后,让我们再回过头来回忆我们做假设检验的基本逻辑,刚才的计算给出了当零假设为真时某个个体收入水平与态度为特定值的“理想概率”,基于这些“理想概率”,我们可以构建一个描绘“理想情况”的数据表:

低收入 中等收入 高收入 总人数
支持 209.9 187.2 200.9 598
反对 141.1 125.8 135.1 402
351 313 336 1000

现在,我们需要衡量现实情况(所观测数据)与这一“理想情况”之间的差距,所以我们将它们放在同一个表格中,括号中为“理想情况”的数据:

低收入 中等收入 高收入 总人数
支持 213 (209.9) 203 (187.2) 182 (200.9) 598
反对 138 (141.1) 130 (125.8) 154 (135.1) 402
351 313 336 1000

我们按单元格计算现实情况和“理想情况”的差距,我们将现实情况中第i行第j列个单元格用xij表示,将“理想情况”中第i行第j列个单元格用mij来表示,那么我们将会通过如下算式来衡量两个值之间的差距:

透彻理解卡方检验

这个公式有两点需要注意,首先,二者差值被平方了,所以不管是正的差异还是负的差异,在这个公式中我们都是一视同仁的;其次,我们在分母中除以了理想情况值,所以我们计算的是“相对差异”,这一操作能够保证我们计算出来的差异不随样本量的增大而增大

在通过上述公式依此计算出每个“现实单元格”与“理想单元格”之间的差距后,我们可以将其加和,即得出了卡方检验中的检验统计量——卡方值:

透彻理解卡方检验

t检验中的t值服从特定自由度的t分布,F检验中的F值服从特定自由度的F分布一样,在满足特定假设后,卡方检验中的卡方值也将服从df=(j-1)(k-1)的卡方分布,其中jk分别对应两类别变量的水平数。所以我们可以计算得出当前例子下的自由度df=2,进一步地,我们可以通过观察当前计算出来的检验统计量在df=2的卡方分布所处的位置,来决定是否需要拒绝零假设……

最后判断是否能够拒绝零假设的部分我在这里就不再赘述了,其属于假设检验的内容。

正文完
 0
评论(一条评论)
2025-06-09 07:31:50 回复

独立事件和卡方检验,都是非常重要的质量管理概念,挺难理解的。

 Windows  Chrome  中国江苏省常州市联通

汽车质量管理笔记

文章搜索
猜您喜欢
摩擦与润滑:看不见的科学,触手可及的影响

摩擦与润滑:看不见的科学,触手可及的影响

引言 你是否想过,为什么鞋底能稳稳地抓住地面,而车轮又能在路上自由转动?这些都与一个无处不在的现象有关:摩擦。...
博世PFMEA培训教材

博世PFMEA培训教材

免责声明:本文转载自网络
主机厂尺寸工程材料

主机厂尺寸工程材料

来源:智慧汽车供应链
关于本站,关于作者

关于本站,关于作者

一切都是源于内心的需求,本我故我真我 初心 作为一个从小白开始的质量工程师,深感质量意识启蒙的困难,思想的改变...
大众集团Formel Q质量能力

大众集团Formel Q质量能力

 1 什么是 Formel Q Formel Q首先是德文的缩写(毕竟大众集团是德国企业嘛!)翻译成中英文大家...
即刻尝鲜
空气悬架高度传感器靠谱吗?

空气悬架高度传感器靠谱吗?

高度传感器在电控悬架系统中,用于检测车身与车轮之间的相对高度,为悬架控制系统提供车身高度信息,以便自动调节车身...
麦格纳工装夹具设计培训教材+要点总结

麦格纳工装夹具设计培训教材+要点总结

工装夹具设计一般是在零件的机械加工工艺过程制订之后按照某一工序的具体要求进行的。制订工艺过程,应充分考虑夹具实...
ISO9001-2026与ISO 9001-2015标准对照表

ISO9001-2026与ISO 9001-2015标准对照表

把新版和 2015 版做了一份对照表,哪些条款变了,哪些只是重新组织结构,哪些地方是真正收紧、以后要重点关注的...
东北大学长篇综述:高熵合金搅拌摩擦焊接与加工中的微观组织与力学性能

东北大学长篇综述:高熵合金搅拌摩擦焊接与加工中的微观组织与力学性能

【研究背景】:高熵合金(HEAs)作为多主元合金体系,近年来因其独特的成分设计、可调控的微观组织以及优异的综合...
车间自检互检制度培训

车间自检互检制度培训

不接受不良品 · 不制造不良品 · 不传递不良品 🎯 培训目标 通过本培训,您将能够: ✅ 理解自检互检制度的...
最新评论
大师兄 大师兄 独立事件和卡方检验,都是非常重要的质量管理概念,挺难理解的。
透彻理解卡方检验 - 汽车质量管理笔记 透彻理解卡方检验 - 汽车质量管理笔记 […] 化简后的式子是我们在卡方检验中需要用到的式子,所以请大家牢记!对于上述式子有疑惑的读者可以学习基础的概率论,也可以参考我之前写的一篇关于独立的文章(《【直观数学】如何理解两事件间的独立关系》)。如果没有问题的话,我们可以进入到卡方检验原理与步骤的主体介绍部分! […]
infinite cui infinite cui 需求VDA6.3 表格,谢谢
大师兄 大师兄 说的挺有道理的,从现实看到的大部分情况,做技术的人都比较直,对技术的一丝不苟,容易在遇到需要展现管理能力的时候,就会表现出短板来。管理需要授权,更多应该思考团队、部门间,人员发展,对未来的变化做出应对等的能力。
大师兄 大师兄 抱歉,暂无PPT可供下载。
john john 如何获得这个PPT文件
大师兄 大师兄 里面确实有一些叫法和我们平时不一样
大师兄 大师兄 这个案例来自一本教科书,短短一页不到的案例描述,有可能漏掉某些细节。我想马自达的员工不会不知道这点,很可能是案例没有提到。马自达的员工更愿意偏离规范不过是这本教科书的猜测罢了。因为象传输系统这么复杂的产品,做得好与做得不好都可能有多个原因。我从另一个案例分析中发现,马自达的最终产品还是比福特的更满足规范要求。 变更控制是必要的。
PeriMasto PeriMasto 这个写的不错,很实用,谢谢!
生产、质量及技术三个难兄难弟的关系 | 汽车质量人小馆 生产、质量及技术三个难兄难弟的关系 | 汽车质量人小馆 […] 附:《生产质量管理十六字精髓》(点击可查具体讲解) […]