統計とビッグデータ reliability

多くの非重複評価者による評価者間の信頼性

AmazonのMechanical Turkで少なくとも3つの異なる評価者によって公称スケールで分類された11,000以上の個別のアイテムのデータセットがあります。 88の異なる評価者がタスクの判断を提供し、約800の判断を完了する評価者はいませんでした。ほとんどの提供はそれよりも大幅に少ない。私の質問はこれです：私は、単にコンセンサスを見るよりも、格付けに対する評価者間の信頼性のある尺度を計算したいと思います。しかし、私が最もよく知っている測定法であるフライスカッパには、アイテムのセット全体に対して一貫した評価者グループが必要であるため、フライスカッパを使用してデータでIRRをチェックすることはできません。これは正しいです？私が使用できる別の方法はありますか？何かアドバイスをいただければ幸いです！

8 reliability agreement-statistics cohens-kappa

評価者間の信頼性（ICC）が低い場合はどうすればよいですか？

背景：8人の医師がそれぞれ同じ54人の患者を説得力の尺度（1-7リッカート尺度）で評価しました。説得力の測定の平均スコアは、最終的には私の実験の結果の測定になります。評価者間の信頼性は、一貫性のある双方向変量効果モデルを使用して、クラス内相関係数（ICC）として定量化されました。残念ながら、8人の医師の評価者間の信頼性は低かった（ICC = .350、単一の測定）。これらの信頼できないデータを使用して、さらに計画的な分析を実行する必要がありますか？あるいは、評価者間の信頼性が最も高い医師（つまり評価者）のみを含めることは正当化できるのでしょうか？評価者間の信頼性がより良好な2人の医師がいることを発見しました（ICC = .718、N = 2）が、これが他の医師を分析から除外する十分な理由ではないと思います。この問題を扱っている文献への言及があれば、本当にありがたいです。

8 reliability agreement-statistics

タグ付けされた質問 「reliability」

タグ付けされた質問「reliability」