回答:
Kappa()統計は、名目または順序のスケールで2人の評価者間で観測された一致を偶然だけで期待される一致と比較する品質指標です(評価者が投げ上げているかのように)。複数の評価者の場合の拡張が存在します(2、pp。284–291)。順序データの場合、重み付き使用できます。これは基本的に、一致の測定に寄与する非対角要素を含む通常のを読み取ります。Fleiss(3)は値を解釈するためのガイドラインを提供しましたが、これらは単なる経験則です。κ κ κ
統計は、双方向のランダム効果ANOVAから推定ICCに漸近的に同等ですが、通常のANOVAの枠組みからの有意性検定とSEは、バイナリデータではもう有効ではありません。ブートストラップを使用して信頼区間(CI)を取得することをお勧めします。Fleiss(8)は、加重カッパとクラス内相関(ICC)の関係について議論しました。
心理測定学者の中には、予測値が考慮中の疾患の罹患率に影響されるのと同じように測定対象の罹患率に影響されるため、にあまり好きではないことに注意する必要があり、これは逆説的な結果につながる可能性があります。
評価者の評価者間信頼性は、ケンドールの一致係数で推定できます。評価されるアイテムまたはユニットの数が場合、。(2、pp。269–270)。この漸近近似は、と中程度の値(6)有効ですが、20項目未満のまたは順列検定の方が適しています(7)。SpearmanのとKendallの統計には密接な関係がありますは、ペアワイズSpearman相関の平均から直接計算できます(アンタイドされた観測のみ)。W nは> 7 、K (N - 1 )W 〜χ 2(N - 1 )nはk個のF ρ W W
ポリコリック(順序データ)相関は、評価者間の合意の尺度としても使用できます。確かに、彼らはすることができます
実際、潜在的な特性モデリングの特殊なケースであることが示されているため、分布の仮定を緩和することができます(4)。
連続(又はそう仮定)測定、対象間変動に起因する分散の割合を定量化ICCは正常です。繰り返しますが、ブートストラップされたCIが推奨されます。@arsが言ったように、基本的に2つのバージョン(合意と一貫性)があり、それらは合意研究の場合に適用され(5)、主に平方和の計算方法が異なります。「一貫性」ICCは一般に、Item×Raterの相互作用を考慮せずに推定されます。ANOVAフレームワークは、レーティング(BIBD)の数を最小限に抑えたい特定のブロック設計に役立ちます。実際、これはフリースの研究の元々の動機の1つでした。複数の評価者に最適な方法でもあります。このアプローチの自然な拡張は、一般化可能性理論と呼ばれます。概要は、Rater Models:An Introductionに記載されています。それ以外の場合は、Psychometricka 2006 71(3)でレビューされているBrennanの本が標準的な参考文献です。
一般的な参考文献については、Graham Dunn のStatistics in Psychiatryの第3章(Hodder Arnold、2000)をお勧めします。信頼性研究のより完全な処理のために、これまでの最良の参照は
Dunn、G(2004)。信頼性研究の設計と分析。アーノルド。International Journal of Epidemiologyのレビューを参照してください。
優れたオンライン紹介は、John UebersaxのWebサイト、Intraclass Correlation and Related Methodsで入手できます。特に順序尺度に関して、ICCアプローチの長所と短所の議論が含まれています。
双方向評価(通常または連続測定)に関連するRパッケージは、Psychoometrics Task Viewにあります。私は通常、psy、psych、またはirrパッケージのいずれかを使用します。concordパッケージもありますが、使用したことはありません。3人以上の評価者を扱う場合、lme4パッケージを使用すると、ランダム効果を簡単に組み込むことができますが、aov()
分散コンポーネントを推定するだけでよいため、ほとんどの信頼性設計を使用して分析できます。
参照資料
クラス内の相関は、順序データのために使用することができます。しかし、主に評価者を区別できないといういくつかの警告があります。これと、ICCのさまざまなバージョンから選択する方法の詳細については、以下を参照してください。