状況を「修正」する方法ではなく、方法論自体に基づいて答えたいと思います。別の文脈では、私は格付けと分類システムに取り組むのを手伝いました、そして、格付け者間の合意ががっかりするほど低いことがわかりました。2つのパスが考慮されました
- レーティング契約の定義方法を変更し、タスクを「理解」していると思われるユーザーを特定する、または
- 評価者へのガイダンスと例の提供者とともに、使用された定義を改良して、評価者が物事を評価する方法をより簡単に理解できるようにします。
最初のシナリオでは、評価者間の信頼性が低いため、方法論と結果全体が無駄になる可能性があります。元の定義が悪かったか、評価者に不十分な指示が与えられたかのいずれかでした。その道を進んだ場合、問題が発生することは間違いありませんでした。
2番目のケースでは、評価者間の合意は非常に良好でした。彼らは非常に多くの項目を評価したので、元の定義とガイダンスが不十分であると考えたときにフィードバックを与えることもできました。最終的に、方法論は非常に再現可能でした。
これに基づいて、評価者のセットはまだ変更しませんが、元の定義とガイダンスに戻ります。評価後のいじりは問題ですが、品質チェックには役立ちます。与えられたガイダンスに関係なく、彼らが望むことをしようとする評価者が時々います。優れた統計的手法を使用すると、それらを簡単に特定し、それらの貢献に適切に重みを付けることができます。
さて、私が間違っており、さらに収集する予定がない場合、つまり、データがすでに収集されて完了している場合、PCAまたはそのようなものを実行して、どのように異なるかを理解できるかどうかを確認します。医師(または患者)クラスター。
患者はすべての医師に同時に(例えば、ビデオ録画を通じて)曝されましたか、それとも連続的に曝されましたか?そして、相互作用ごとにプレゼンテーションを変更する機会がありましたか?後者の場合、医師ではなく患者に問題がある可能性があります。