AmazonのMechanical Turkで少なくとも3つの異なる評価者によって公称スケールで分類された11,000以上の個別のアイテムのデータセットがあります。
88の異なる評価者がタスクの判断を提供し、約800の判断を完了する評価者はいませんでした。ほとんどの提供はそれよりも大幅に少ない。
私の質問はこれです:
私は、単にコンセンサスを見るよりも、格付けに対する評価者間の信頼性のある尺度を計算したいと思います。しかし、私が最もよく知っている測定法であるフライスカッパには、アイテムのセット全体に対して一貫した評価者グループが必要であるため、フライスカッパを使用してデータでIRRをチェックすることはできません。これは正しいです?私が使用できる別の方法はありますか?
何かアドバイスをいただければ幸いです!