关于属性数据MSA中Kappa的对话——与图老师的讨论

1,284次阅读
没有评论

共计 4243 个字符,预计需要花费 11 分钟才能阅读完成。

前言:在7月29日本号发表了拙作《我为什么反对在属性数据MSA中用Kappa分析(上)》以后,图老师认真阅读了拙作,指出了文章的不足之处,并提出了一些值得探讨的问题。针对图老师所提意见,我核对了原文,并仔细阅读了AIAG的《测量系统分析参考手册》第四版(以下简称手册),发现所发文章确实存在诸多不足,也有一些遗漏,因此于8月5日进行了修改。除此之外,我们还进行了很有趣的讨论,对比了手册中属性数据MSA部分与minitab、六西格玛的不同之处,并与詹志炜老师进行了交流,澄清了一些概念,达成了一些共识。
我们共同认为,有必要把讨论的内容发表出来,以引起更广泛的讨论,获得更大的共识。为此特将我们讨论的内容整理发表,供大家参考,也欢迎大家提出不同意见。
图老师:
2019.7.30  18:02
    张老师好, 今天得空再次拜读Kappa大作, 有以下疑问想和您核实, 以下均基于AIAG的MSA手册第4版本。
  1. Kappa法也就是针对属性类数据测量系统研究的假设风险分析法, 可用时评价考虑2个维度:
   一是一致性, 也就是各评价人之间的一致程度[和基准值无关]. 用Cohen的Kappa来评价, 通用的比例规则是Kappa>0.75表示有良好的一致性.
   二是有效性,(您的表格翻译成了一致性, 请核实)由于一致性只能反应各评价人之间的一致程度, 但不能反应区分好坏零件的能力, 所以引入相对于零件参考值的有效性。
在评估有效性之前, 同样使用Kappa来确定每个评价者和参考之间的一致性, 如果满足上面的要求, 则继续分析评估. 
  2. 手册中给出的有效性评价表作为指南仅供参考,实际是否接受要取决于顾客的要求, 组织对当前过程情况的了解程度,样本的选择。测量系统的变差来源以及错误决定对后续过程和顾客的影响。
3. 上面的2是英文原版的意思。很搞笑的是,正版的英文和中文在这里有着巨大的分歧,内容和意思完全不一样。这里不作评论。
4.不可否认,Kappa法研究的过程中,取样的结构范围和数量对于结果几乎有着决定性的引向作用,如果不了解过程和研究的目的,难以得到预期的结果。
5.关于您发现的Kappa和”一致率”结论不一的案例, 可否提供类似手册表格中的原始模拟数据, 我用不同于Minitab的软件来分析一下, 说不定有另外的发现可供您参考。
张自达的答复
2019.8.1  17:33
非常感谢图老师如此认真地看了我的文章,并对其中的不足提出了自己的意见。
在发这篇文章时,我心里也不是特别有底,毕竟其中的观点与大多数人的认知是相反的,你的意见会使文章的观点更加完善,也会更有指导意义。
在回应你的7个问题之前,我想先说一下写这篇文章的初衷。我的想法很简单,就是要简化。随着五大工具以及六西格玛越来越普及,工具也变得越来越复杂,做出判断的依据也越来越多,以至于当多个判据出现矛盾时,人们会无所适从。在MSA现有的判据中有的直接明了,如%P/T、一致性、有效性,有些则物理含义并不那么清晰,如ndc、Kappa。可笑的是,%R&R和ndc本来是一回事,但因为是两个指标,结果判据上出现不一致,这也是我反对ndc的原因。一致性、有效性与Kappa之间的问题类似(虽然原理上不同),过多类似的判据会造成人们认识上的混乱。我更担心的是在实际使用中将判据僵化,变成死的教条。我们用泥巴造了一座神像,然后我们对这块泥巴顶礼膜拜,言听计从。走得太远,我们不知道为什么出发。

关于属性数据MSA中Kappa的对话——与图老师的讨论

来啊!拜神啊!

基于以上考虑,我强烈建议将判据简化,丢掉那些含义不明的判据,这样做更有现实意义。
下面讨论图老师提出的问题:
1.你说的对,我忽略了一致性和有效性两个概念的差异,这个会在下一篇里指出来。检验员一致性反过来就是minitab中的mixed,如果是重复测2次,可以用Cohen’  Kappa,如果是3次及以上,就要用到Fleiss’  Kappa了。假设是2次,我大致算了一下,0.75的Kappa值所对应的一致性范围越为0.87~1,这个范围比较宽,跨越了好与不好的界限。一致性是有效性的基础,如果一致性是0.87,那么有效性肯定不会好,所以这个0.75我持保留意见。如果取0.8,覆盖的范围在0.9~1,这个还可以接受。

关于属性数据MSA中Kappa的对话——与图老师的讨论

这张图发文的时候漏掉了,看来还是发急了,这张图说的是在不同样本组合下,一致率从0.5~1对应的Kappa值,看来要重发一次了。
有效性的计算方法没什么特别的,就是将标准与评价放在一起计算Fleiss’ Kappa,在计算中标准和评价一视同仁,没什么特别优待。我没有特别计算2次评价加1次标准计算的Kappa值,而是计算了3个人6次评价加1次标准共7次评价的Kappa值。假设样本结构是合格/不合格为25/25,在不同的有效率下Kappa的表现是这样的

关于属性数据MSA中Kappa的对话——与图老师的讨论

可以看到0.75的Kappa值基本覆盖了0.6~0.8的有效率。
2.我同意,其实我就是怕僵化运用才提出这种比较极端的意见的。
3.建议图老师亲自翻译一版,我可以打打下手。
4.完全同意,计量数据又何尝不是呢,单单一个抽样就出现了各种千奇百怪的方法,微信群里时不时就要对此来一番唇枪舌战,可见其流毒之广。
5.这是我的短板,我是用很笨的方法来做模拟的,就是穷举各种不一致的情况,比如50个样6次评价只有1个样不一致有5种情况,有2个样不一致是就有25种错误组合,我是一一计算各种情况的Kappa值,然后选出最大值和最小值来获得其范围,如果能够编程来计算的话,那就太方便了。
微信中的讨论

关于属性数据MSA中Kappa的对话——与图老师的讨论

关于属性数据MSA中Kappa的对话——与图老师的讨论

关于属性数据MSA中Kappa的对话——与图老师的讨论

关于属性数据MSA中Kappa的对话——与图老师的讨论

张自达的答复(包括图老师对部分内容的修改)
2019.8.4  22:07
图老师,这几天我把手册属性测量系统分析部分仔细看了,手册里的分析方法与minitab(包括红皮书、蓝皮书)有很大差异,下面我直接使用手册中的例子做一个对比,理解不到位的地方请你批评指正。
    在进入对比之前,我不得不说手册的中译本简直太差了,满分100分的话,我给59分,其它部分可以给60分算是勉强及格,仔细琢磨一下可以理解,胡乱翻译的那一段要扣掉1分。我还没对比全部手册,说不定其它部分也有扣分项。
两种方法的对比
    1.分析对象有差别
    手册的分析对象实质还是连续数据,在连续数据的基础上来分析类似通止规这样的量仪,所研究的对象与minitab相比要窄不少,我在六西格玛中学习到的以及在minitab中属性数据还包括分类数据(包括两分类和多分类),这些数据不一定是将连续数据离散化,如在客服电话中将客户来电区分为投诉、咨询、业务办理等类别,客户投诉应该转发给哪些部门来处理等,在这里判断的准确性对处理的效率有很重要的影响。还有一类是顺序数据,比如给电影评星、给工程师评级等等。分析对象的不同带来的分析方法上的差异。
2.分析方法上的差异
1) minitab首先分析检验员自身的一致性,即对同一个部件的三次判断是否一致,因为是3次测量,所以无法计算Cohen’s Kappa,而只能计算Fleiss’ Kappa。

关于属性数据MSA中Kappa的对话——与图老师的讨论

这个计算我一般解释为重复性,即相同的人测量相同的东西所表现出的差异,重复性不好,后面的分析就不可能好了。
手册对此也有计算,见下面的贴图,但没有计算Kappa值。
2)每个检验员的有效性
minitab结果

关于属性数据MSA中Kappa的对话——与图老师的讨论

这个表给出了每个检验员的误检率和漏检率,混合是重复性不好的数量。表中还给出了每个检验员的Kappa值,可以看到,即使有效性不是很好,Kappa值依然很高。
手册也给出了类似的表

关于属性数据MSA中Kappa的对话——与图老师的讨论

手册假设检验给出的结论是三个检验员之间没有显著差异,因为置信区间是相交的。
对此我有两点疑问:
    a.虽然手册中的案例采用随机抽样,但在实践中,大量的实验采用非随机抽样,比如零件外观检验,实验中会特意挑选样件,而不是随机抽样,此时计算置信区间就没有意义了。手册里也提到了所谓的“咸鱼样本”。
    b.置信区间是基于二项分布建立的,如果样本量较小的话,置信区间会很宽,其参考意义也就不大了。
    因此我建议在属性数据MSA中放弃基于置信区间的假设检验。
    在手册中,下面表格中的错误率(应翻译为漏判率,即坏件被判为好件)和错误报警率(应翻译为误判率,即好件被判为坏件)的计算也与minitab不同。手册中错误率是某检验员的错误次数/总测量次数,如A,“1”(合格)部件有34个,测量102次,判断错误5次,因此误检率为4.9%。“0”(不合格)部件有16个,测量48次,错误3个,因此漏检率为3/48=6.3%。
    手册翻译要再扣1分,表格中的数据写错了。

关于属性数据MSA中Kappa的对话——与图老师的讨论

关于属性数据MSA中Kappa的对话——与图老师的讨论

    3)检验员之间的一致性
在minitab中,用3个检验员判断完全一致的部件数计算总体的一致性,可以理解为再现性。显然3个检验员判断错误的部件不完全一致,因此总的一致率比单个检验员的一致率低。另外每个部件的9次检验当作9个样本来计算Kappa值。可以看出,即使一致率很低,但Kappa仍然比较高,这样会让人产生疑惑。

关于属性数据MSA中Kappa的对话——与图老师的讨论

      手册因为只用Cohen’s Kappa,所以不能把3个检验员放到一起来计算,而只是做了两两一致性的分析。但两两一致性也有问题,因为两个人每个部件有6次测量,手册因此把每人三次测量按次一一对应,将50个样3次测量变成150次测量组成下面的交叉表

关于属性数据MSA中Kappa的对话——与图老师的讨论

采用这种方法计算出来的Kappa值如下表

关于属性数据MSA中Kappa的对话——与图老师的讨论

    看起来都还不错,但我对此也有两个疑问
    a.这样建立的交叉表很牵强,首先两个检验员的每一次测量不一定存在对应关系,其次这个表可以理解为150个部件单次测量的一致性,这就造成了交叉表的含义不明。
    b.两两对应的一致性仍然不能表达总体的一致性,因此计算出的Kappa值也没有什么意义。
    4)总体有效性
minitab中总体有效性是总体一致性与标准的对比,本例的计算结果如下

关于属性数据MSA中Kappa的对话——与图老师的讨论

手册中对此没有分析。
     总的来说,我还是推荐minitab的分析方法,原因有2点:
     a. minitab适应性广,不仅可以分析这个案例(1或0, ok或nok)的属性类数据,还可以分析分类数据和分级顺序类数据。
     b. minitab分析更全面客观一些,当然我还是不建议用Kappa。
 
手册中关于“偏倚”和“重复性”的分析在minitab中也能实现,我会另文介绍。
以上意见请图老师及各位老师指正。
微信中的讨论

关于属性数据MSA中Kappa的对话——与图老师的讨论

关于属性数据MSA中Kappa的对话——与图老师的讨论

关于属性数据MSA中Kappa的对话——与图老师的讨论

关于属性数据MSA中Kappa的对话——与图老师的讨论

关于属性数据MSA中Kappa的对话——与图老师的讨论

关于属性数据MSA中Kappa的对话——与图老师的讨论

关于属性数据MSA中Kappa的对话——与图老师的讨论

关于属性数据MSA中Kappa的对话——与图老师的讨论

这是一次非常愉快的讨论,不仅在于澄清了以前很模糊的概念,发现本本中存在的问题,更在于讨论中良好的交流氛围,在交流中获得新知的愉悦感,这是单纯看书体会不到的。
期待以后会有更多这样的讨论与交流。
转自:张老师漫谈六西格玛
正文完
 0
评论(没有评论)

汽车质量管理笔记

文章搜索
猜您喜欢
国内外顶尖轴承生产企业排名!中国与德国的差别,确实震撼!

国内外顶尖轴承生产企业排名!中国与德国的差别,确实震撼!

世界十大著名轴承生产企业排行榜(按销售额排序) 排名 企业名称 工厂数 年销售额 1 瑞典SKF 90 50亿...
107条质量管理体系的术语释义,深入质量管理体系的权威解释。

107条质量管理体系的术语释义,深入质量管理体系的权威解释。

整理了107条有关质量管理体系的术语释义,不足之处希望大家补充指正。 1、质量 quality 一组固有特性满...
我审核了一个假体系

我审核了一个假体系

因为纸张价格上涨的因素,采购成本的压力大增,为此采购预选了一些新的供应商,于是劳动节后,我接连接到几家新供应商...
润滑油里的气泡:你不知道的10个有趣事实

润滑油里的气泡:你不知道的10个有趣事实

在设备润滑领域工作多年的人都懂得保持润滑油清洁、做好污染控制的必要性。空气也会对润滑油造成“污染”,润滑油里不...
质量、成本、效率……这些都要从生产现场管理抓起

质量、成本、效率……这些都要从生产现场管理抓起

现场管理的核心要素:4M1E 人员(Man):数量,岗位,技能,资格等。 机器(Machine):检查,验收,...
即刻尝鲜
空气悬架高度传感器靠谱吗?

空气悬架高度传感器靠谱吗?

高度传感器在电控悬架系统中,用于检测车身与车轮之间的相对高度,为悬架控制系统提供车身高度信息,以便自动调节车身...
麦格纳工装夹具设计培训教材+要点总结

麦格纳工装夹具设计培训教材+要点总结

工装夹具设计一般是在零件的机械加工工艺过程制订之后按照某一工序的具体要求进行的。制订工艺过程,应充分考虑夹具实...
ISO9001-2026与ISO 9001-2015标准对照表

ISO9001-2026与ISO 9001-2015标准对照表

把新版和 2015 版做了一份对照表,哪些条款变了,哪些只是重新组织结构,哪些地方是真正收紧、以后要重点关注的...
东北大学长篇综述:高熵合金搅拌摩擦焊接与加工中的微观组织与力学性能

东北大学长篇综述:高熵合金搅拌摩擦焊接与加工中的微观组织与力学性能

【研究背景】:高熵合金(HEAs)作为多主元合金体系,近年来因其独特的成分设计、可调控的微观组织以及优异的综合...
车间自检互检制度培训

车间自检互检制度培训

不接受不良品 · 不制造不良品 · 不传递不良品 🎯 培训目标 通过本培训,您将能够: ✅ 理解自检互检制度的...
最新评论
大师兄 大师兄 独立事件和卡方检验,都是非常重要的质量管理概念,挺难理解的。
透彻理解卡方检验 - 汽车质量管理笔记 透彻理解卡方检验 - 汽车质量管理笔记 […] 化简后的式子是我们在卡方检验中需要用到的式子,所以请大家牢记!对于上述式子有疑惑的读者可以学习基础的概率论,也可以参考我之前写的一篇关于独立的文章(《【直观数学】如何理解两事件间的独立关系》)。如果没有问题的话,我们可以进入到卡方检验原理与步骤的主体介绍部分! […]
infinite cui infinite cui 需求VDA6.3 表格,谢谢
大师兄 大师兄 说的挺有道理的,从现实看到的大部分情况,做技术的人都比较直,对技术的一丝不苟,容易在遇到需要展现管理能力的时候,就会表现出短板来。管理需要授权,更多应该思考团队、部门间,人员发展,对未来的变化做出应对等的能力。
大师兄 大师兄 抱歉,暂无PPT可供下载。
john john 如何获得这个PPT文件
大师兄 大师兄 里面确实有一些叫法和我们平时不一样
大师兄 大师兄 这个案例来自一本教科书,短短一页不到的案例描述,有可能漏掉某些细节。我想马自达的员工不会不知道这点,很可能是案例没有提到。马自达的员工更愿意偏离规范不过是这本教科书的猜测罢了。因为象传输系统这么复杂的产品,做得好与做得不好都可能有多个原因。我从另一个案例分析中发现,马自达的最终产品还是比福特的更满足规范要求。 变更控制是必要的。
PeriMasto PeriMasto 这个写的不错,很实用,谢谢!
生产、质量及技术三个难兄难弟的关系 | 汽车质量人小馆 生产、质量及技术三个难兄难弟的关系 | 汽车质量人小馆 […] 附:《生产质量管理十六字精髓》(点击可查具体讲解) […]