关于属性数据MSA中Kappa的对话——与图老师的讨论

共计 4243 个字符，预计需要花费 11 分钟才能阅读完成。

前言：在7月29日本号发表了拙作《我为什么反对在属性数据MSA中用Kappa分析(上)》以后，图老师认真阅读了拙作，指出了文章的不足之处，并提出了一些值得探讨的问题。针对图老师所提意见，我核对了原文，并仔细阅读了AIAG的《测量系统分析参考手册》第四版(以下简称手册)，发现所发文章确实存在诸多不足，也有一些遗漏，因此于8月5日进行了修改。除此之外，我们还进行了很有趣的讨论，对比了手册中属性数据MSA部分与minitab、六西格玛的不同之处，并与詹志炜老师进行了交流，澄清了一些概念，达成了一些共识。

我们共同认为，有必要把讨论的内容发表出来，以引起更广泛的讨论，获得更大的共识。为此特将我们讨论的内容整理发表，供大家参考，也欢迎大家提出不同意见。

图老师：

2019.7.30 18:02

张老师好, 今天得空再次拜读Kappa大作, 有以下疑问想和您核实, 以下均基于AIAG的MSA手册第4版本。

1. Kappa法也就是针对属性类数据测量系统研究的假设风险分析法, 可用时评价考虑2个维度：

一是一致性, 也就是各评价人之间的一致程度[和基准值无关]. 用Cohen的Kappa来评价, 通用的比例规则是Kappa>0.75表示有良好的一致性.

二是有效性，(您的表格翻译成了一致性, 请核实)由于一致性只能反应各评价人之间的一致程度, 但不能反应区分好坏零件的能力, 所以引入相对于零件参考值的有效性。

在评估有效性之前, 同样使用Kappa来确定每个评价者和参考之间的一致性, 如果满足上面的要求, 则继续分析评估.

2. 手册中给出的有效性评价表作为指南仅供参考，实际是否接受要取决于顾客的要求，组织对当前过程情况的了解程度，样本的选择。测量系统的变差来源以及错误决定对后续过程和顾客的影响。

3. 上面的2是英文原版的意思。很搞笑的是，正版的英文和中文在这里有着巨大的分歧，内容和意思完全不一样。这里不作评论。

4.不可否认，Kappa法研究的过程中，取样的结构范围和数量对于结果几乎有着决定性的引向作用，如果不了解过程和研究的目的，难以得到预期的结果。

5.关于您发现的Kappa和”一致率”结论不一的案例, 可否提供类似手册表格中的原始模拟数据, 我用不同于Minitab的软件来分析一下, 说不定有另外的发现可供您参考。

张自达的答复

2019.8.1 17:33

非常感谢图老师如此认真地看了我的文章，并对其中的不足提出了自己的意见。

在发这篇文章时，我心里也不是特别有底，毕竟其中的观点与大多数人的认知是相反的，你的意见会使文章的观点更加完善，也会更有指导意义。

在回应你的7个问题之前，我想先说一下写这篇文章的初衷。我的想法很简单，就是要简化。随着五大工具以及六西格玛越来越普及，工具也变得越来越复杂，做出判断的依据也越来越多，以至于当多个判据出现矛盾时，人们会无所适从。在MSA现有的判据中有的直接明了，如%P/T、一致性、有效性，有些则物理含义并不那么清晰，如ndc、Kappa。可笑的是，%R&R和ndc本来是一回事，但因为是两个指标，结果判据上出现不一致，这也是我反对ndc的原因。一致性、有效性与Kappa之间的问题类似(虽然原理上不同)，过多类似的判据会造成人们认识上的混乱。我更担心的是在实际使用中将判据僵化，变成死的教条。我们用泥巴造了一座神像，然后我们对这块泥巴顶礼膜拜，言听计从。走得太远，我们不知道为什么出发。

来啊！拜神啊！

基于以上考虑，我强烈建议将判据简化，丢掉那些含义不明的判据，这样做更有现实意义。

下面讨论图老师提出的问题：

1.你说的对，我忽略了一致性和有效性两个概念的差异，这个会在下一篇里指出来。检验员一致性反过来就是minitab中的mixed，如果是重复测2次，可以用Cohen’ Kappa，如果是3次及以上，就要用到Fleiss’ Kappa了。假设是2次，我大致算了一下，0.75的Kappa值所对应的一致性范围越为0.87～1，这个范围比较宽，跨越了好与不好的界限。一致性是有效性的基础，如果一致性是0.87，那么有效性肯定不会好，所以这个0.75我持保留意见。如果取0.8，覆盖的范围在0.9～1，这个还可以接受。

这张图发文的时候漏掉了，看来还是发急了，这张图说的是在不同样本组合下，一致率从0.5～1对应的Kappa值，看来要重发一次了。

有效性的计算方法没什么特别的，就是将标准与评价放在一起计算Fleiss’ Kappa，在计算中标准和评价一视同仁，没什么特别优待。我没有特别计算2次评价加1次标准计算的Kappa值，而是计算了3个人6次评价加1次标准共7次评价的Kappa值。假设样本结构是合格/不合格为25/25，在不同的有效率下Kappa的表现是这样的

可以看到0.75的Kappa值基本覆盖了0.6～0.8的有效率。

2.我同意，其实我就是怕僵化运用才提出这种比较极端的意见的。

3.建议图老师亲自翻译一版，我可以打打下手。

4.完全同意，计量数据又何尝不是呢，单单一个抽样就出现了各种千奇百怪的方法，微信群里时不时就要对此来一番唇枪舌战，可见其流毒之广。

5.这是我的短板，我是用很笨的方法来做模拟的，就是穷举各种不一致的情况，比如50个样6次评价只有1个样不一致有5种情况，有2个样不一致是就有25种错误组合，我是一一计算各种情况的Kappa值，然后选出最大值和最小值来获得其范围，如果能够编程来计算的话，那就太方便了。

微信中的讨论

张自达的答复(包括图老师对部分内容的修改)

2019.8.4 22:07

图老师，这几天我把手册属性测量系统分析部分仔细看了，手册里的分析方法与minitab(包括红皮书、蓝皮书)有很大差异，下面我直接使用手册中的例子做一个对比，理解不到位的地方请你批评指正。

在进入对比之前，我不得不说手册的中译本简直太差了，满分100分的话，我给59分，其它部分可以给60分算是勉强及格，仔细琢磨一下可以理解，胡乱翻译的那一段要扣掉1分。我还没对比全部手册，说不定其它部分也有扣分项。

两种方法的对比

1.分析对象有差别

手册的分析对象实质还是连续数据，在连续数据的基础上来分析类似通止规这样的量仪，所研究的对象与minitab相比要窄不少，我在六西格玛中学习到的以及在minitab中属性数据还包括分类数据(包括两分类和多分类)，这些数据不一定是将连续数据离散化，如在客服电话中将客户来电区分为投诉、咨询、业务办理等类别，客户投诉应该转发给哪些部门来处理等，在这里判断的准确性对处理的效率有很重要的影响。还有一类是顺序数据，比如给电影评星、给工程师评级等等。分析对象的不同带来的分析方法上的差异。

2.分析方法上的差异

1) minitab首先分析检验员自身的一致性，即对同一个部件的三次判断是否一致，因为是3次测量，所以无法计算Cohen’s Kappa，而只能计算Fleiss’ Kappa。

这个计算我一般解释为重复性，即相同的人测量相同的东西所表现出的差异，重复性不好，后面的分析就不可能好了。

手册对此也有计算，见下面的贴图，但没有计算Kappa值。

2)每个检验员的有效性

minitab结果

这个表给出了每个检验员的误检率和漏检率，混合是重复性不好的数量。表中还给出了每个检验员的Kappa值，可以看到，即使有效性不是很好，Kappa值依然很高。

手册也给出了类似的表

手册假设检验给出的结论是三个检验员之间没有显著差异，因为置信区间是相交的。

对此我有两点疑问：

a.虽然手册中的案例采用随机抽样，但在实践中，大量的实验采用非随机抽样，比如零件外观检验，实验中会特意挑选样件，而不是随机抽样，此时计算置信区间就没有意义了。手册里也提到了所谓的“咸鱼样本”。

b.置信区间是基于二项分布建立的，如果样本量较小的话，置信区间会很宽，其参考意义也就不大了。

因此我建议在属性数据MSA中放弃基于置信区间的假设检验。

在手册中，下面表格中的错误率(应翻译为漏判率，即坏件被判为好件)和错误报警率(应翻译为误判率，即好件被判为坏件)的计算也与minitab不同。手册中错误率是某检验员的错误次数/总测量次数，如A，“1”(合格)部件有34个，测量102次，判断错误5次，因此误检率为4.9%。“0”(不合格)部件有16个，测量48次，错误3个，因此漏检率为3/48=6.3%。

手册翻译要再扣1分，表格中的数据写错了。

3)检验员之间的一致性

在minitab中，用3个检验员判断完全一致的部件数计算总体的一致性，可以理解为再现性。显然3个检验员判断错误的部件不完全一致，因此总的一致率比单个检验员的一致率低。另外每个部件的9次检验当作9个样本来计算Kappa值。可以看出，即使一致率很低，但Kappa仍然比较高，这样会让人产生疑惑。

手册因为只用Cohen’s Kappa，所以不能把3个检验员放到一起来计算，而只是做了两两一致性的分析。但两两一致性也有问题，因为两个人每个部件有6次测量，手册因此把每人三次测量按次一一对应，将50个样3次测量变成150次测量组成下面的交叉表

采用这种方法计算出来的Kappa值如下表

看起来都还不错，但我对此也有两个疑问

a.这样建立的交叉表很牵强，首先两个检验员的每一次测量不一定存在对应关系，其次这个表可以理解为150个部件单次测量的一致性，这就造成了交叉表的含义不明。

b.两两对应的一致性仍然不能表达总体的一致性，因此计算出的Kappa值也没有什么意义。

4)总体有效性

minitab中总体有效性是总体一致性与标准的对比，本例的计算结果如下

手册中对此没有分析。

总的来说，我还是推荐minitab的分析方法，原因有2点：

a. minitab适应性广，不仅可以分析这个案例(1或0, ok或nok)的属性类数据，还可以分析分类数据和分级顺序类数据。

b. minitab分析更全面客观一些，当然我还是不建议用Kappa。

手册中关于“偏倚”和“重复性”的分析在minitab中也能实现，我会另文介绍。

以上意见请图老师及各位老师指正。

微信中的讨论

这是一次非常愉快的讨论，不仅在于澄清了以前很模糊的概念，发现本本中存在的问题，更在于讨论中良好的交流氛围，在交流中获得新知的愉悦感，这是单纯看书体会不到的。

期待以后会有更多这样的讨论与交流。

转自：张老师漫谈六西格玛

铁马大师兄您好，若有更完美版本，敬请分享

yangzhan_83 质量门板块有点乱，另外缺少快速反应板块。

hello world hello world hello world

大师兄独立事件和卡方检验，都是非常重要的质量管理概念，挺难理解的。

透彻理解卡方检验 - 汽车质量管理笔记 […] 化简后的式子是我们在卡方检验中需要用到的式子，所以请大家牢记！对于上述式子有疑惑的读者可以学习基础的概率论，也可以参考我之前写的一篇关于独立的文章（《【直观数学】如何理解两事件间的独立关系》）。如果没有问题的话，我们可以进入到卡方检验原理与步骤的主体介绍部分！ […]

infinite cui 需求VDA6.3 表格，谢谢

大师兄说的挺有道理的，从现实看到的大部分情况，做技术的人都比较直，对技术的一丝不苟，容易在遇到需要展现管理能力的时候，就会表现出短板来。管理需要授权，更多应该思考团队、部门间，人员发展，对未来的变化做出应对等的能力。

大师兄抱歉，暂无PPT可供下载。

john 如何获得这个PPT文件

大师兄里面确实有一些叫法和我们平时不一样

关于属性数据MSA中Kappa的对话——与图老师的讨论

螺丝、螺栓、螺丝钉三者有什么区别?

检具到底是谁的责任!? – 研发还是质量?

快速审核供应商的FMEA

锂离子电池详解

高强螺栓断裂学习