クラス内相関係数対F検定(一元配置分散分析)?


10

クラス内相関係数と一元配置分散分析について少し混乱しています。私が理解しているように、どちらも、グループ内の観測値が他のグループの観測値とどの程度類似しているかを示しています。

誰かがこれをもう少しよく説明できますか、そしておそらく各方法がより有利である状況を説明できますか?


時間をかけて、信頼性または評価者間のタグを確認してください。ICCはANOVAテーブルに基づいていますが、アイデアは、F検定のように分布特性がわかっている単一の検定統計量を生成するのではなく、単に分散の成分を分析することです。どんなアプリケーションを考えていますか?
2011

@chlグループ化されたデータの個々のスコアを分析しようとしています。ICCを使用して、親と子の反応に有意差があるかどうかを判断するために、親と子のスコアの違いを調べるいくつかの論文を見てきました。ここでICCが必要だと思いますが、前述したように、両者の違いはよくわかりません。私はもっ​​と尋ねることをためらいますが、あなたは何か良い(基本的な)参照を知っていますか?私の統計の背景は線形回帰で止まり、定型化されていない質問をしているように感じます。ありがとうございました。
11

ペアのデータがあるようです。個別のグループ(親とその子)を検討し、ICCを使用してスコアの信頼性を報告する場合、情報の一部を破棄します。つまり、親とその親からの評価が一貫して機能するかどうかです。2つのICCは、分散のかなりの部分が評価者効果によって説明される可能性があるという意味で、独立していると想定される両方の系列のスコアが「信頼できる」かどうかのみを通知します。(...)
chl

(...)要するに、親の評価が子供の評価より信頼できることを示したい場合は、ICCを使用するのが適切です。一方、親の評価が子供の評価とどのように関連しているかを調べたい場合は、他の種類の分析(正確には、ダイアディックデータの分析)に頼るかもしれません。
11

回答:


17

どちらの方法も、観測された分散をさまざまな部分またはコンポーネントに分解するという同じ考え方に依存しています。ただし、アイテムや評価者を固定効果と見なすか、ランダム効果と見なすかには微妙な違いがあります。全変動のどの部分がbetween因子によって説明されるか(または、between分散が残差分散からどれだけ離れているか)を言うことを除いて、F検定はあまり言いません。少なくともこれは、固定効果を仮定する一元配置分散分析に当てはまります(これは、以下で説明するICC(1,1)に対応します)。一方、ICCは、いくつかの「交換可能な」評価者の信頼性の評価、または分析単位間の均一性を評価するときに、有界の指標を提供します。

通常、異なる種類のICCを次のように区別します。これは、Shrout and Fleiss(1979)の独創的な研究によるものです。

  • 一方向変量効果モデル、ICC(1,1):各項目は、潜在的な評価者のより大きなプールからサンプリングされたと見なされる異なる評価者によって評価されるため、変量効果として扱われます。ICCは、被験者/項目の分散によって説明される合計分散の%として解釈されます。これは整合性ICCと呼ばれます。
  • 双方向変量効果モデル、ICC(2,1):両方の要素(評価者と項目/対象)は変量効果と見なされ、残差分散に加えて2つの分散成分(または平均二乗)があります。さらに、評価者はすべての項目/対象を評価すると仮定します。この場合、ICCは、評価者+アイテム/サブジェクトに起因する分散の%を示します。
  • 双方向混合モデル、ICC(3,1):一方向アプローチとは逆に、ここでは評価者は固定効果(手元のサンプル以外の一般化なし)と見なされますが、アイテム/被験者は変量効果として扱われます。分析の単位は、個人または平均評価です。

これは、表1のケース1〜3に対応します。観測された評価が複数の評価の平均であると見なすかどうかによって、さらに区別できます(ICC(1、k)、ICC(2、k)、 ICC(3、k))かどうか。

つまり、適切なモデル(一方向か双方向か)を選択する必要があり、これは主にShroutとFleissの論文で説明されています。一元モデルは、双方向モデルよりも値が小さくなる傾向があります。同様に、変量効果モデルは通常、固定効果モデルよりも低い値を生成します。固定効果モデルから導出されたICCは、評価者の一貫性を評価する方法と見なされます(評価者の分散を無視するため)。一方、変量効果モデルでは、評価者の合意の推定について話します(評価者が交換可能かどうかに関係なく)。双方向モデルのみが、評価者と対象者の相互作用を組み込んでいます。これは、非定型の評価パターンを解明しようとするときに興味深いかもしれません。

次の図は、容易に/から、例えばペーストコピーであるICC()心理パッケージ(データはShroutとFleiss、1979から来ます)。データは4人の裁判官(J)で構成され、6人の被験者またはターゲット(S)を評価し、以下に要約されます(Rマトリックスという名前で格納されていると仮定しますsf

   J1 J2 J3 J4
S1  9  2  5  8
S2  6  1  3  2
S3  8  4  6  8
S4  7  1  2  6
S5 10  5  6  9
S6  6  2  4  7

この例は、モデルの選択が結果にどのように影響し、したがって信頼性研究の解釈に影響するかを示しているため、興味深いものです。6つのICCモデルはすべて次のとおりです(これは、ShroutおよびFleissの論文の表4です)。

Intraclass correlation coefficients 
                         type  ICC    F df1 df2       p lower bound upper bound
Single_raters_absolute   ICC1 0.17  1.8   5  18 0.16477      -0.133        0.72
Single_random_raters     ICC2 0.29 11.0   5  15 0.00013       0.019        0.76
Single_fixed_raters      ICC3 0.71 11.0   5  15 0.00013       0.342        0.95
Average_raters_absolute ICC1k 0.44  1.8   5  18 0.16477      -0.884        0.91
Average_random_raters   ICC2k 0.62 11.0   5  15 0.00013       0.071        0.93
Average_fixed_raters    ICC3k 0.91 11.0   5  15 0.00013       0.676        0.99

見てわかるように、評価者を固定効果(したがって、評価者のより広いプールに一般化しようとしない)と見なすと、測定の均一性の値がはるかに高くなります。(irrパッケージ(icc())でも同様の結果が得られますが、モデルタイプと分析単位については別のオプションを試さなければなりません。)

分散分析アプローチは何を教えてくれますか?関連する平均二乗を取得するには、2つのモデルを近似する必要があります。

  • サブジェクトのみを考慮する一方向モデル。これにより、評価されるターゲット(グループMS、BMS間)を分離し、エラー内の期間(WMS)の推定値を取得できます。
  • サブジェクト+評価者+それらの相互作用を考慮した双方向モデル(複製がない場合、この最後の項は残差と混同されます)。これにより、変量効果モデルを使用する場合に考慮できる評価者の主効果(JMS)を推定できます(つまり、変動性全体に追加します)。

ここでは、F検定を見る必要はありません。MSのみが対象です。

library(reshape)
sf.df <- melt(sf, varnames=c("Subject", "Rater"))
anova(lm(value ~ Subject, sf.df))
anova(lm(value ~ Subject*Rater, sf.df))

これで、以下のような拡張された分散分析表でさまざまな部分を組み立てることができます(これは、Shrout and Fleissの論文の表3です)。


(ソース:mathurl.com

最初の2行は一元モデルからのもので、次の2行は双方向ANOVAからのものです。

ShroutとFleissの記事ですべての式を確認するのは簡単であり、単一の評価の信頼性を推定するために必要なものはすべて揃っています。複数の評価の平均信頼性はどうですか(これは多くの場合、評価者間研究における関心の量です)?Hays and Revicki(2005)に従い、MSの比率を書き換える必要がある双方向変量効果モデルを除いて、分母で考慮される合計MSを変更するだけで上記の分解から取得できます。

  • ICC(1,1)=(BMS-WMS)/(BMS +(k-1)•WMS)の場合、全体的な信頼性は(BMS-WMS)/BMS=0.443として計算されます。
  • ICC(2,1)=(BMS-EMS)/(BMS +(k-1)•EMS + k•(JMS-EMS)/ N)の場合、全体的な信頼性は(N•(BMS-EMS))/ (N•BMS + JMS-EMS)= 0.620。
  • 最後に、ICC(3,1)=(BMS-EMS)/(BMS +(k-1)•EMS)の場合、(BMS-EMS)/BMS=0.909の信頼性があります。

繰り返しますが、評価者を固定効果と見なすと、全体的な信頼性が高くなります。

参考文献

  1. Shrout、PEおよびFleiss、JL(1979)。クラス内相関:評価者の信頼性の評価での使用Psychological Bulletin、86、420-3428。
  2. Hays、RDおよびRevicki、D.(2005)。信頼性と妥当性(応答性を含む)。Fayers、P. and Hays、RD(eds。)、Assessing Quality of Life in Clinical Trials、2nd ed。、pp。25-39。オックスフォード大学出版局。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.