評価者間の信頼性(ICC)が低い場合はどうすればよいですか?


8

背景:8人の医師がそれぞれ同じ54人の患者を説得力の尺度(1-7リッカート尺度)で評価しました。説得力の測定の平均スコアは、最終的には私の実験の結果の測定になります。

評価者間の信頼性は、一貫性のある双方向変量効果モデルを使用して、クラス内相関係数(ICC)として定量化されました。残念ながら、8人の医師の評価者間の信頼性は低かった(ICC = .350、単一の測定)。これらの信頼できないデータを使用して、さらに計画的な分析を実行する必要がありますか?あるいは、評価者間の信頼性が最も高い医師(つまり評価者)のみを含めることは正当化できるのでしょうか?評価者間の信頼性がより良好な2人の医師がいることを発見しました(ICC = .718、N = 2)が、これが他の医師を分析から除外する十分な理由ではないと思います。この問題を扱っている文献への言及があれば、本当にありがたいです。

回答:


6

状況を「修正」する方法ではなく、方法論自体に基づいて答えたいと思います。別の文脈では、私は格付けと分類システムに取り組むのを手伝いました、そして、格付け者間の合意ががっかりするほど低いことがわかりました。2つのパスが考慮されました

  1. レーティング契約の定義方法を変更し、タスクを「理解」していると思われるユーザーを特定する、または
  2. 評価者へのガイダンスと例の提供者とともに、使用された定義を改良して、評価者が物事を評価する方法をより簡単に理解できるようにします。

最初のシナリオでは、評価者間の信頼性が低いため、方法論と結果全体が無駄になる可能性があります。元の定義が悪かったか、評価者に不十分な指示が与えられたかのいずれかでした。その道を進んだ場合、問題が発生することは間違いありませんでした。

2番目のケースでは、評価者間の合意は非常に良好でした。彼らは非常に多くの項目を評価したので、元の定義とガイダンスが不十分であると考えたときにフィードバックを与えることもできました。最終的に、方法論は非常に再現可能でした。

これに基づいて、評価者のセットはまだ変更しませんが、元の定義とガイダンスに戻ります。評価後のいじりは問題ですが、品質チェックには役立ちます。与えられたガイダンスに関係なく、彼らが望むことをしようとする評価者が時々います。優れた統計的手法を使用すると、それらを簡単に特定し、それらの貢献に適切に重みを付けることができます。

さて、私が間違っており、さらに収集する予定がない場合、つまり、データがすでに収集されて完了している場合、PCAまたはそのようなものを実行して、どのように異なるかを理解できるかどうかを確認します。医師(または患者)クラスター。

患者はすべての医師に同時に(例えば、ビデオ録画を通じて)曝されましたか、それとも連続的に曝されましたか?そして、相互作用ごとにプレゼンテーションを変更する機会がありましたか?後者の場合、医師ではなく患者に問題がある可能性があります。


3

ICCの推定値は確かに楽観的であるため、28の可能なペアから最良のICC値をチェリーピッキングすることは、決して良い考えではありません。

Neuendorfのコンテンツ分析ハンドブックには、コーディングの信頼性の低さに対処するためのオプションについてのかなり良い議論があります。引用は:

Neuendorf, Kimberly A. The Content Analysis Handbook. Sage, Thousand Oaks, CA, 2002

付随するウェブサイトがあります


リンクが機能しなくなった
Tom
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.