順序データまたは間隔データの評価者間信頼性


25

順序データまたは間隔データに最適な評価者間信頼性方法はどれですか?

「一致の共同確率」または「カッパ」は、名目上のデータ用に設計されていると思います。「ピアソン」と「スピアマン」は使用できますが、主に2人の評価者に使用されます(ただし、3人以上の評価者に使用できます)。

順序データまたは間隔データに適した他の尺度、つまり3人以上の評価者はいますか?

回答:


29

Kappa()統計は、名目または順序のスケールで2人の評価者間で観測された一致を偶然だけで期待される一致と比較する品質指標です(評価者が投げ上げているかのように)。複数の評価者の場合の拡張が存在します(2、pp。284–291)。順序データの場合、重み付き使用できます。これは基本的に、一致の測定に寄与する非対角要素を含む通常のを読み取ります。Fleiss(3)は値を解釈するためのガイドラインを提供しましたが、これらは単なる経験則です。κ κ κκ κκκ

統計は、双方向のランダム効果ANOVAから推定ICCに漸近的に同等ですが、通常のANOVAの枠組みからの有意性検定とSEは、バイナリデータではもう有効ではありません。ブートストラップを使用して信頼区間(CI)を取得することをお勧めします。Fleiss(8)は、加重カッパとクラス内相関(ICC)の関係について議論しました。κ

心理測定学者の中には、予測値が考慮中の疾患の罹患率に影響されるのと同じように測定対象の罹患率に影響されるため、にあまり好きではないことに注意する必要があり、これは逆説的な結果につながる可能性があります。κ

評価者の評価者間信頼性は、ケンドールの一致係数で推定できます。評価されるアイテムまたはユニットの数が場合、。(2、pp。269–270)。この漸近近似は、と中程度の値(6)有効ですが、20項目未満のまたは順列検定の方が適しています(7)。SpearmanのとKendallの統計には密接な関係がありますは、ペアワイズSpearman相関の平均から直接計算できます(アンタイドされた観測のみ)。W nは> 7 、K N - 1 W χ 2N - 1 nはk個のF ρ W WkWn>7k(n1)Wχ2(n1)nkFρWW

ポリコリック(順序データ)相関は、評価者間の合意の尺度としても使用できます。確かに、彼らはすることができます

  • 継続的な評価が行われた場合の相関関係を推定し、
  • 評価者間の限界均質性をテストします。

実際、潜在的な特性モデリングの特殊なケースであることが示されているため、分布の仮定を緩和することができます(4)。

連続(又はそう仮定)測定、対象間変動に起因する分散の割合を定量化ICCは正常です。繰り返しますが、ブートストラップされたCIが推奨されます。@arsが言ったように、基本的に2つのバージョン(合意と一貫性)があり、それらは合意研究の場合に適用され(5)、主に平方和の計算方法が異なります。「一貫性」ICCは一般に、Item×Raterの相互作用を考慮せずに推定されます。ANOVAフレームワークは、レーティング(BIBD)の数を最小限に抑えたい特定のブロック設計に役立ちます。実際、これはフリースの研究の元々の動機の1つでした。複数の評価者に最適な方法でもあります。このアプローチの自然な拡張は、一般化可能性理論と呼ばれます。概要は、Rater Models:An Introductionに記載されています。それ以外の場合は、Psychometricka 2006 71(3)でレビューされているBrennanの本が標準的な参考文献です。

一般的な参考文献については、Graham Dunn のStatistics in Psychiatryの第3章(Hodder Arnold、2000)をお勧めします。信頼性研究のより完全な処理のために、これまでの最良の参照は

Dunn、G(2004)。信頼性研究の設計と分析。アーノルド。International Journal of Epidemiologyのレビューを参照してください。

優れたオンライン紹介は、John UebersaxのWebサイト、Intraclass Correlation and Related Methodsで入手できます。特に順序尺度に関して、ICCアプローチの長所と短所の議論が含まれています。

双方向評価(通常または連続測定)に関連するRパッケージは、Psychoometrics Task Viewにあります。私は通常、psypsych、またはirrパッケージのいずれかを使用します。concordパッケージもありますが、使用したことはありません。3人以上の評価者を扱う場合、lme4パッケージを使用すると、ランダム効果を簡単に組み込むことができますが、aov()分散コンポーネントを推定するだけでよいため、ほとんどの信頼性設計を使用して分析できます。

参照資料

  1. Jコーエン。加重カッパ:部分的信用のスケール不一致に対する規定を伴う公称スケール合意。心理会報70、213-220、1968。
  2. SシーゲルとJr Nジョンカステラン。行動科学のノンパラメトリック統計。McGraw-Hill、第2版、1988年。
  3. JL Fleiss。率と割合の統計的方法。ニューヨーク:ワイリー、第2版、1981年。
  4. JS Uebersax。4相および多相相関係数。評価者契約ウェブサイトの統計的手法、2006年。http://john-uebersax.com/stat/tetra.htmで入手可能。2010年2月24日にアクセス。
  5. PE ShroutとJL Fleiss。クラス内相関:評価者の信頼性の評価に使用します。心理会報86、420から428、1979。
  6. MGケンドールとBバビントンスミス。mランキングの問題数理統計の史料10、275-287、1939。
  7. Pルジャンドル。一致係数。NJ Salkind、編集者、Encyclopedia of Research Designにて。SAGE Publications、2010。
  8. JL Fleiss。信頼性の尺度としての加重カッパとクラス内相関係数の等価性教育と心理測定33、613から619、1973。

3
その他の3つの参考資料:1. カッパを超えて: Mousu​​mi Banerjee、Michelle Capozzoli、Laura McSweeney、Debajyoti Sinha による評価者間の合意の評価 2. 評価者間の信頼性とパフォーマンス評価の合意: John W.フリーナー&ウィリアムF.
グロスニックル

3. スポーツ医学に関連する変数の測定誤差(信頼性)を評価するための統計的方法。アトキンソンG&ネビルAM 最初のリファレンスは、順序データに固有のものであり、順序データのカッパを超える他の手段について説明します。2番目と3番目は、間隔データに固有です。
M. Tibbits

(+1)M. Tibbitsに感謝します!サイコメトリクスの講義では、最初に引用したものも含めて、多くの参考文献と例を提供しますが、他の2つは知りませんでした。
chl

さらに、序数パッケージでは、lme4のような序数回帰を使用したマルチレベルモデリングが可能です。
ジョン

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.