多くの非重複評価者による評価者間の信頼性


8

AmazonのMechanical Turkで少なくとも3つの異なる評価者によって公称スケールで分類された11,000以上の個別のアイテムのデータセットがあります。

88の異なる評価者がタスクの判断を提供し、約800の判断を完了する評価者はいませんでした。ほとんどの提供はそれよりも大幅に少ない。

私の質問はこれです:

私は、単にコンセンサスを見るよりも、格付けに対する評価者間の信頼性のある尺度を計算したいと思います。しかし、私が最もよく知っている測定法であるフライスカッパには、アイテムのセット全体に対して一貫した評価者グループが必要であるため、フライスカッパを使用してデータでIRRをチェックすることはできません。これは正しいです?私が使用できる別の方法はありますか?

何かアドバイスをいただければ幸いです!


1
サイトへようこそ!以前にこれらのタグを使用して同様の質問が行われました。これらのタグの中に有効な解決策があるかどうかを確認しましたか?
StasK 2011

1
ありがとう!私は確かにチェックしました。直接関連する質問1つしか見つかりませんでしたが、回答はありません。
ジャッドアン

回答:


2

自分を納得させるだけの場合は(別のパーティーの番号を報告するのではなく)、項目と評価者が2つのランダムな効果である、クロス分類された階層/混合モデルを適合させることができます。次に、評価者のクラス内相関は、[評価者のランダム効果の分散] / [評価者のランダム効果の分散+アイテムのランダム効果の分散+(ロジスティック分布の分散=)]です。 。特定の実装では、使用している計算プラットフォームに依存します。CVのデフォルトはRなので、それを使用することになりますが、SPSSやStataなどの異なるものがあるかもしれません。π2/nlme


2

クリッペンドルフのアルファをチェックしてください。Cohen's Kappa、Fleiss's Kappa、Cronbach's alphaなど、他のいくつかの測定に比べていくつかの利点があります。2つ以上の評価者を扱うことができます。また、さまざまな種類のスケール(名義、序数など)を処理でき、また、コーエンのカッパのような他のいくつかのメジャーよりも偶然の一致を考慮します。

クリッペンドルフのアルファの計算は、R(irrパッケージによる)、SPSSなどのいくつかの統計ソフトウェアパッケージでサポートされています。

以下に、プロパティとその実装を含むクリッペンドルフのアルファについて説明し、それを他の指標と比較するいくつかの関連する論文を示します。

  1. Hayes、AF、&Krippendorff、K.(2007)。データをコーディングするための標準的な信頼性対策の要求に応える。コミュニケーション方法と手段、1(1)、77-89。

  2. Krippendorff、K.(2004)。コンテンツ分析の信頼性:一般的な誤解と推奨事項。ヒューマンコミュニケーションリサーチ、30(3)、411-433。土井:10.1111 / j.1468-2958.2004.tb00738.x

  3. Krippendorff、K.(2013)の第3章。コンテンツ分析:その方法論の紹介(第3版):セージ。

Krippendorffのウェブサイトにいくつかの追加の技術論文があります

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.