複数の評価者、参加者ごとに異なる評価者、および経時変化の可能性がある評価者間信頼性を実行する方法は？

参加者は2回評価され、2つの評価は3年で区切られていました。ほとんどの参加者について、評価は異なる評価者によって行われましたが、一部（10％未満）では、同じ評価者が両方の評価を行いました。合計8人の評価者がおり、2つの評価者が両方の時点で評価を行っていました。

さて、評価は仮想の「正しい」値を持つ能力の側面のものだったので、評価者間の絶対的な合意は一貫性よりも重要です。ただし、評価は3年間隔で行われたため、能力に実際の変更があった可能性があります（おそらく変更されていました）。

この場合、信頼性の最良のテストは何でしょうか？
私はクラス内相関に傾いていますが、ICC1はこれらのデータで実行できる最善の方法ですか？

— ジョイス
ソース

一部の評価が同じ評価者によって行われたという事実をどのように説明しますか？頭の中で、それが一貫して行われていない場合、それを考慮に入れる対策は考えられません。結局のところ、同じ評価者を2回比較する場合、一貫性を調べていることになります。2人の評価者を比較する場合、あなたは合意を見ています。したがって、「信頼性」を評価したい場合、何を評価しようとしているのかは完全には明確ではありません。

被験者の能力レベルが変化したと思われる場合は、その事実をどのように説明できるかを検討することも重要です。評価者を比較するためのいくつかのゴールドスタンダード測定がありますか？

したがって、要約すると、評価者の信頼性を評価する前に、2つの重要な質問に答える必要があります。

レーティングの一貫性が悪いのではなく、能力の正当な変化に起因するタイムポイント間の変化をどのように定量化して修正できますか？
あなたは主に、評価者がお互いに同意する頻度、または評価者がどれだけ一貫して評価を適用することに興味がありますか？

— TARehman
ソース

TARehman、返信ありがとうございます。あなたが言うように、それはミックスです。同じ評価者によって評価されたものとそうでないものにサンプルを分割する必要があると思います。次に、両方で個別の分析を実行します（それぞれ内部信頼性と内部信頼性）。実際の変化の問題に関して、私は方法があるとは思いません

— ジョイス

それらを分割すると、最終スコアをメタ信頼性に集約できる可能性があるように思えますが、そのような計画は方法論的な課題に満ちています。ICCがあなたの最良の選択肢になると思います。あなたの数値はどのようなものですか（評価の数、個人など-8人の評価者がいることはわかっています）？

— TARehman

したがって、各n = 800に対して2つの評価があります。t1には5人の評価者があり、t2には5人の評価者がいました（全体で8人、t1とt2の両方で2人の評価者）。100人の個人が両方の時点で同じ評価者によって評価され、700人が異なる評価者を持っていました。ここでどのICCが最も適切であるかわからない...

— Joyce

さて、両方の時点で同じ評価者によって評価された100人の個人を無視することで、上記の2つの箇条書きの1つに対処できるようです。それは、少なくともあなたが何に興味があるかという問題に対処します：それらが互いにどのくらいの頻度で同意するか、またはどのように一貫して評価を適用するか。時間の経過に伴う予想される値の変化を制御する方法がないため、最初のポイントにどのように対処するかはまだわかりません...

— TARehman

追加のために編集：ICCのこの側面に関するWikipediaのディスカッションは例証となるかもしれません：en.wikipedia.org/wiki/…。特に、「同じ量を測定する複数の観察者による測定の一貫性または適合性を評価するために使用できる」と述べています。この場合の評価者は同じ量を測定していないため、ICCは状況にあまり適していない可能性があります。

— TARehman