Cohenのカッパ分散(および標準誤差)の計算


44

Kappa()統計は、2人の評価者間の一致を測定するために、コーエン[1]によって1960年に導入されました。しかし、その分散はかなり長い間矛盾の原因でした。κ

私の質問は、大きなサンプルでどの分散計算を使用するのが最適かについてです。私は、Fleiss [2]によってテストおよび検証されたものが正しい選択であると信じていますが、これが正しいと思われる唯一の公開されたものではないようです(かなり最近の文献で使用されています)。

現在、漸近の大きなサンプル分散を計算する2つの具体的な方法があります。

  • Fleiss、Cohen、Everittが公開した修正済みメソッド[2]。
  • Colgaton、2009 [4](106ページ)の本に記載されているデルタ方式。

この混乱の一部を説明するために、ここに強調鉱山のFleiss、CohenおよびEveritt [2]による引用があります。

多くの人間の努力は、最終的な成功が達成される前に繰り返される失敗に呪われています。エベレスト山のスケーリングはその一例です。北西航路の発見は2番目です。kappaの正しい標準誤差の導出は3番目です。

そのため、ここで何が起こったのかを簡単に要約します。

  • 1960:Cohenは、論文「名目スケールの一致係数」[1]を発行し、と呼ばれる2人の評価者間の偶然修正された一致の尺度を紹介します。ただし、彼は分散計算の誤った式を公開しています。κ
  • 1968年:エヴァーリットはそれらを修正しようとしますが、彼の式も間違っていました。
  • 1969:Fleiss、CohenおよびEverittは、論文「KappaおよびWeighted Kappaの大きなサンプル標準誤差」[2]で正しい式を公開しています。
  • 1971:Fleiss は、同じ名前で別の統計(ただし、別の統計)を公開しますが、分散の式は正しくありません。κ
  • 1979:Fleiss NeeとLandisは、Fleissの修正された式を公開しています。κ

最初に、次の表記法を検討します。この表記は、ドットが置かれている次元のすべての要素に加算演算子が適用されることを意味します。

   pi.=j=1kpij    p.j=i=1kpij

これで、カッパを次のように計算できます。

   κ^=popc1pe

その中で

   po=i=1kpiiは観察された合意であり、

   pc=i=1kpi.p.iはチャンス合意です。

これまでのところ、Cohenのの正しい分散計算は次のようになります。κ

   var^(κ^)=1N(1pc)4{i=1kpii[(1po)(p.i+pi.)(1po)]2   +(1po)2i=1kj=1ijkpij(p.i+pj.)2(popc2pc+po)2}

帰無仮説では、次のようになります。

   var^(κ^)=1N(1pc)2{i=1kp.ipi.[1(p.i+pi.)2]+i=1kj=1,ijkp.ipj.(p.i+pj.)2pc2}

Congaltonの方法は、分散を取得するためのデルタ法に基づいているようです(Agresti、1990; Agresti、2002)。ただし、デルタ方式が何であるか、なぜ使用する必要があるのか​​はわかりません。この方法での分散は、次の式で与えられます。κ

   var^(κ^)=1n{θ1(1θ1)(1θ2)2+2(1θ1)(2θ1θ2θ3)(1θ2)3+(1θ1)2(θ44θ22)(1θ2)4}

その中で

   θ1=1ni=1knii

   θ2=1n2i=1kni+n+i

   θ3=1n2i=1knii(ni++n+i)

   θ4=1n3i=1kj=1knij(nj++n+i)2

(Congaltonはではなく添え字を使用しますが、同じことを意味しているようです。さらに、はカウント行列、つまりサンプル数で除算される前の混同行列であると仮定しています関係式)+.nijpij=nijsamples

別の奇妙な部分は、コルガトンの本がコーエンによるオリジナルの論文を参照しているように見えるが、彼が重み付きカッパについて議論し続けるまでは、フリースらによって公開されたカッパ分散の修正を引用していないようです。おそらく彼の最初の出版物は、カッパの真の公式が混乱して失われたときに書かれたのでしょうか?

誰かがそれらの違いの理由を説明できますか?または、なぜ誰かがFleissによる修正版の代わりにデルタ法の分散を使用するのでしょうか?

[1]:フライス、ジョセフL。コーエン、ジェイコブ; エブリット、BS; カッパと加重カッパの大きなサンプル標準誤差。Psychological Bulletin、Vol 72(5)、1969年11月、323-327。土井:10.1037 / h0028106

[2]:コーエン、ジェイコブ(1960)。公称スケールの一致係数。教育および心理測定20(1):37–46。DOI:10.1177 / 001316446002000104

[3]:Alan Agresti、Categorical Data Analysis、第2版。ジョンワイリーアンドサンズ、2002年。

[4]:ラッセルG.コンガルトンとグリーン、K。リモートセンシングデータの精度の評価:原則と実践、第2版。2009年。


括弧の一部がオフになっています。修正してください。また、ネストされた括弧を{[(x + y)^ z + a] ^ b-c}の形式にすると、読みやすくなります。
StasK

また、自体と、存在する場合は同等の代替製剤を指定してください。特定の代替製剤に応じて、分散式を取得する方が簡単な場合があります。(Giniインデックスについて考えています。複雑な調査データの分散推定量がまったく異なることを暗示するiidデータの定式化が5つほどあります。)κ
StasK

フィードバックをお寄せいただきありがとうございます。数式を修正し、カッパの計算方法を追加しました。Kappaの定式化は文献全体で一貫しているように見えますが、その分散だけがそうではありません。
シーザー

1
ところで、私はColgatonの本の印刷エラーのように見えることに気付きました。彼はを定義していますが、このはどこからでも来ています。私はそれがであることを意図していたとれます。pc=i=1kpi+p+jjpc=i=1kpi+p+i
シーザー

2
私は少なくともこの部分であなたの手を与えることができます:「私は確かデルタ方式が何であるかではないです」 - en.wikipedia.org/wiki/Delta_methodと分散はそこから来てここに
Glen_b

回答:


7

分散を計算する2つの方法のどちらを好むかはわかりませんが、コーエンのカッパのベイズ推定を使用して、信頼性/信頼区間を計算する3番目の実用的で便利な方法を提供できます。

以下のRおよびJAGSコードは、データが与えられたKappaの信頼できる値の事後分布からMCMCサンプルを生成します。

library(rjags)
library(coda)
library(psych)

# Creating some mock data
rater1 <- c(1, 2, 3, 1, 1, 2, 1, 1, 3, 1, 2, 3, 3, 2, 3) 
rater2 <- c(1, 2, 2, 1, 2, 2, 3, 1, 3, 1, 2, 3, 2, 1, 1) 
agreement <- rater1 == rater2
n_categories <- 3
n_ratings <- 15

# The JAGS model definition, should work in WinBugs with minimal modification
kohen_model_string <- "model {
  kappa <- (p_agreement - chance_agreement) / (1 - chance_agreement)
  chance_agreement <- sum(p1 * p2)

  for(i in 1:n_ratings) {
    rater1[i] ~ dcat(p1)
    rater2[i] ~ dcat(p2)
    agreement[i] ~ dbern(p_agreement)
  }

  # Uniform priors on all parameters
  p1 ~ ddirch(alpha)
  p2 ~ ddirch(alpha)
  p_agreement ~ dbeta(1, 1)
  for(cat_i in 1:n_categories) {
    alpha[cat_i] <- 1
  }
}"

# Running the model
kohen_model <- jags.model(file = textConnection(kohen_model_string),
                 data = list(rater1 = rater1, rater2 = rater2,
                   agreement = agreement, n_categories = n_categories,
                   n_ratings = n_ratings),
                 n.chains= 1, n.adapt= 1000)

update(kohen_model, 10000)
mcmc_samples <- coda.samples(kohen_model, variable.names="kappa", n.iter=20000)

以下のプロットは、カッパの事後分布からのMCMCサンプルの密度プロットを示しています。

後部カッパ密度

MCMCサンプルを使用して、中央値をカッパの推定値として使用し、2.5%および97.5%分位を95%信頼/信頼区間として使用できるようになりました。

summary(mcmc_samples)$quantiles
##      2.5%        25%        50%        75%      97.5% 
## 0.01688361 0.26103573 0.38753814 0.50757431 0.70288890 

これを、Fleiss、Cohen、Everittに従って計算された「古典的な」推定値と比較します。

cohen.kappa(cbind(rater1, rater2), alpha=0.05)
##                  lower estimate upper
## unweighted kappa  0.041     0.40  0.76

個人的には、古典的な信頼区間よりもベイズの信頼区間を好むでしょう。特に、ベイジアンの信頼区間の方が小さなサンプルの特性が優れていると信じているからです。人々がベイジアン分析に関して持つ一般的な懸念は、パラメータの分布に関する事前の信念を指定する必要があるということです。幸いなことに、この場合、すべてのパラメーターに均一な分布を配置するだけで、「目的の」事前分布を簡単に構築できます。これにより、ベイジアンモデルの結果は、カッパ係数の「古典的な」計算に非常に似たものになるはずです。

参照資料

Sanjib Basu、Mousu​​mi Banerjee、Ananda Sen(2000)。単一および複数の研究からのカッパのベイズ推定。バイオメトリクス、Vol。56、No。2(2000年6月)、pp。577-582


3人以上の評価者にこの拡張機能があるかどうか知っていますか?
Fomite
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.