关于属性数据MSA中Kappa的对话——与图老师的讨论

前言:在7月29日本号发表了拙作《我为什么反对在属性数据MSA中用Kappa分析(上)》以后,图老师认真阅读了拙作,指出了文章的不足之处,并提出了一些值得探讨的问题。针对图老师所提意见,我核对了原文,并仔细阅读了AIAG的《测量系统分析参考手册》第四版(以下简称手册),发现所发文章确实存在诸多不足,也有一些遗漏,因此于8月5日进行了修改。除此之外,我们还进行了很有趣的讨论,对比了手册中属性数据MSA部分与minitab、六西格玛的不同之处,并与詹志炜老师进行了交流,澄清了一些概念,达成了一些共识。
我们共同认为,有必要把讨论的内容发表出来,以引起更广泛的讨论,获得更大的共识。为此特将我们讨论的内容整理发表,供大家参考,也欢迎大家提出不同意见。
图老师:
2019.7.30  18:02
    张老师好, 今天得空再次拜读Kappa大作, 有以下疑问想和您核实, 以下均基于AIAG的MSA手册第4版本。
  1. Kappa法也就是针对属性类数据测量系统研究的假设风险分析法, 可用时评价考虑2个维度:
   一是一致性, 也就是各评价人之间的一致程度[和基准值无关]. 用Cohen的Kappa来评价, 通用的比例规则是Kappa>0.75表示有良好的一致性.
   二是有效性,(您的表格翻译成了一致性, 请核实)由于一致性只能反应各评价人之间的一致程度, 但不能反应区分好坏零件的能力, 所以引入相对于零件参考值的有效性。
在评估有效性之前, 同样使用Kappa来确定每个评价者和参考之间的一致性, 如果满足上面的要求, 则继续分析评估. 
  2. 手册中给出的有效性评价表作为指南仅供参考,实际是否接受要取决于顾客的要求, 组织对当前过程情况的了解程度,样本的选择。测量系统的变差来源以及错误决定对后续过程和顾客的影响。
3. 上面的2是英文原版的意思。很搞笑的是,正版的英文和中文在这里有着巨大的分歧,内容和意思完全不一样。这里不作评论。
4.不可否认,Kappa法研究的过程中,取样的结构范围和数量对于结果几乎有着决定性的引向作用,如果不了解过程和研究的目的,难以得到预期的结果。
5.关于您发现的Kappa和”一致率”结论不一的案例, 可否提供类似手册表格中的原始模拟数据, 我用不同于Minitab的软件来分析一下, 说不定有另外的发现可供您参考。
张自达的答复
2019.8.1  17:33
非常感谢图老师如此认真地看了我的文章,并对其中的不足提出了自己的意见。
在发这篇文章时,我心里也不是特别有底,毕竟其中的观点与大多数人的认知是相反的,你的意见会使文章的观点更加完善,也会更有指导意义。
在回应你的7个问题之前,我想先说一下写这篇文章的初衷。我的想法很简单,就是要简化。随着五大工具以及六西格玛越来越普及,工具也变得越来越复杂,做出判断的依据也越来越多,以至于当多个判据出现矛盾时,人们会无所适从。在MSA现有的判据中有的直接明了,如%P/T、一致性、有效性,有些则物理含义并不那么清晰,如ndc、Kappa。可笑的是,%R&R和ndc本来是一回事,但因为是两个指标,结果判据上出现不一致,这也是我反对ndc的原因。一致性、有效性与Kappa之间的问题类似(虽然原理上不同),过多类似的判据会造成人们认识上的混乱。我更担心的是在实际使用中将判据僵化,变成死的教条。我们用泥巴造了一座神像,然后我们对这块泥巴顶礼膜拜,言听计从。走得太远,我们不知道为什么出发。

来啊!拜神啊!

基于以上考虑,我强烈建议将判据简化,丢掉那些含义不明的判据,这样做更有现实意义。
下面讨论图老师提出的问题:
1.你说的对,我忽略了一致性和有效性两个概念的差异,这个会在下一篇里指出来。检验员一致性反过来就是minitab中的mixed,如果是重复测2次,可以用Cohen’  Kappa,如果是3次及以上,就要用到Fleiss’  Kappa了。假设是2次,我大致算了一下,0.75的Kappa值所对应的一致性范围越为0.87~1,这个范围比较宽,跨越了好与不好的界限。一致性是有效性的基础,如果一致性是0.87,那么有效性肯定不会好,所以这个0.75我持保留意见。如果取0.8,覆盖的范围在0.9~1,这个还可以接受。

这张图发文的时候漏掉了,看来还是发急了,这张图说的是在不同样本组合下,一致率从0.5~1对应的Kappa值,看来要重发一次了。
有效性的计算方法没什么特别的,就是将标准与评价放在一起计算Fleiss’ Kappa,在计算中标准和评价一视同仁,没什么特别优待。我没有特别计算2次评价加1次标准计算的Kappa值,而是计算了3个人6次评价加1次标准共7次评价的Kappa值。假设样本结构是合格/不合格为25/25,在不同的有效率下Kappa的表现是这样的

可以看到0.75的Kappa值基本覆盖了0.6~0.8的有效率。
2.我同意,其实我就是怕僵化运用才提出这种比较极端的意见的。
3.建议图老师亲自翻译一版,我可以打打下手。
4.完全同意,计量数据又何尝不是呢,单单一个抽样就出现了各种千奇百怪的方法,微信群里时不时就要对此来一番唇枪舌战,可见其流毒之广。
5.这是我的短板,我是用很笨的方法来做模拟的,就是穷举各种不一致的情况,比如50个样6次评价只有1个样不一致有5种情况,有2个样不一致是就有25种错误组合,我是一一计算各种情况的Kappa值,然后选出最大值和最小值来获得其范围,如果能够编程来计算的话,那就太方便了。
微信中的讨论

张自达的答复(包括图老师对部分内容的修改)
2019.8.4  22:07
图老师,这几天我把手册属性测量系统分析部分仔细看了,手册里的分析方法与minitab(包括红皮书、蓝皮书)有很大差异,下面我直接使用手册中的例子做一个对比,理解不到位的地方请你批评指正。
    在进入对比之前,我不得不说手册的中译本简直太差了,满分100分的话,我给59分,其它部分可以给60分算是勉强及格,仔细琢磨一下可以理解,胡乱翻译的那一段要扣掉1分。我还没对比全部手册,说不定其它部分也有扣分项。
两种方法的对比
    1.分析对象有差别
    手册的分析对象实质还是连续数据,在连续数据的基础上来分析类似通止规这样的量仪,所研究的对象与minitab相比要窄不少,我在六西格玛中学习到的以及在minitab中属性数据还包括分类数据(包括两分类和多分类),这些数据不一定是将连续数据离散化,如在客服电话中将客户来电区分为投诉、咨询、业务办理等类别,客户投诉应该转发给哪些部门来处理等,在这里判断的准确性对处理的效率有很重要的影响。还有一类是顺序数据,比如给电影评星、给工程师评级等等。分析对象的不同带来的分析方法上的差异。
2.分析方法上的差异
1) minitab首先分析检验员自身的一致性,即对同一个部件的三次判断是否一致,因为是3次测量,所以无法计算Cohen’s Kappa,而只能计算Fleiss’ Kappa。

这个计算我一般解释为重复性,即相同的人测量相同的东西所表现出的差异,重复性不好,后面的分析就不可能好了。
手册对此也有计算,见下面的贴图,但没有计算Kappa值。
2)每个检验员的有效性
minitab结果

这个表给出了每个检验员的误检率和漏检率,混合是重复性不好的数量。表中还给出了每个检验员的Kappa值,可以看到,即使有效性不是很好,Kappa值依然很高。
手册也给出了类似的表

手册假设检验给出的结论是三个检验员之间没有显著差异,因为置信区间是相交的。
对此我有两点疑问:
    a.虽然手册中的案例采用随机抽样,但在实践中,大量的实验采用非随机抽样,比如零件外观检验,实验中会特意挑选样件,而不是随机抽样,此时计算置信区间就没有意义了。手册里也提到了所谓的“咸鱼样本”。
    b.置信区间是基于二项分布建立的,如果样本量较小的话,置信区间会很宽,其参考意义也就不大了。
    因此我建议在属性数据MSA中放弃基于置信区间的假设检验。
    在手册中,下面表格中的错误率(应翻译为漏判率,即坏件被判为好件)和错误报警率(应翻译为误判率,即好件被判为坏件)的计算也与minitab不同。手册中错误率是某检验员的错误次数/总测量次数,如A,“1”(合格)部件有34个,测量102次,判断错误5次,因此误检率为4.9%。“0”(不合格)部件有16个,测量48次,错误3个,因此漏检率为3/48=6.3%。
    手册翻译要再扣1分,表格中的数据写错了。

    3)检验员之间的一致性
在minitab中,用3个检验员判断完全一致的部件数计算总体的一致性,可以理解为再现性。显然3个检验员判断错误的部件不完全一致,因此总的一致率比单个检验员的一致率低。另外每个部件的9次检验当作9个样本来计算Kappa值。可以看出,即使一致率很低,但Kappa仍然比较高,这样会让人产生疑惑。

      手册因为只用Cohen’s Kappa,所以不能把3个检验员放到一起来计算,而只是做了两两一致性的分析。但两两一致性也有问题,因为两个人每个部件有6次测量,手册因此把每人三次测量按次一一对应,将50个样3次测量变成150次测量组成下面的交叉表

采用这种方法计算出来的Kappa值如下表

    看起来都还不错,但我对此也有两个疑问
    a.这样建立的交叉表很牵强,首先两个检验员的每一次测量不一定存在对应关系,其次这个表可以理解为150个部件单次测量的一致性,这就造成了交叉表的含义不明。
    b.两两对应的一致性仍然不能表达总体的一致性,因此计算出的Kappa值也没有什么意义。
    4)总体有效性
minitab中总体有效性是总体一致性与标准的对比,本例的计算结果如下

手册中对此没有分析。
     总的来说,我还是推荐minitab的分析方法,原因有2点:
     a. minitab适应性广,不仅可以分析这个案例(1或0, ok或nok)的属性类数据,还可以分析分类数据和分级顺序类数据。
     b. minitab分析更全面客观一些,当然我还是不建议用Kappa。
 
手册中关于“偏倚”和“重复性”的分析在minitab中也能实现,我会另文介绍。
以上意见请图老师及各位老师指正。
微信中的讨论

这是一次非常愉快的讨论,不仅在于澄清了以前很模糊的概念,发现本本中存在的问题,更在于讨论中良好的交流氛围,在交流中获得新知的愉悦感,这是单纯看书体会不到的。
期待以后会有更多这样的讨论与交流。
转自:张老师漫谈六西格玛

标签

发表评论