最近コミュニティ速報を読んでいるなら、StackExchangeネットワークのCEOである Joel SpolskyによるStackExchange公式ブログへの投稿であるThe Hunting of the Snarkを見たことがあるでしょう。彼は、外部ユーザーの観点から「友好性」を評価するために、SEのコメントのサンプルで実施された統計分析について議論しています。コメントはStackOverflowからランダムにサンプリングされ、コンテンツアナリストはAmazonのMechanical Turkコミュニティのメンバーでした。これは、手頃な料金で小規模で短いタスクを行う労働者に企業をつなぐ仕事の市場です。
少し前まで、私は政治学の大学院生であり、私が受講したクラスの1つは統計コンテンツ分析でした。クラスの最終プロジェクトは、実際その全体的な目的は、ニューヨークタイムズの戦争報告の詳細な分析を行い、アメリカ人が戦争中のニュース報道について行った多くの仮定が正確であったかどうかをテストすることでした(ネタバレ:彼らがない)。このプロジェクトは巨大でとても楽しいものでしたが、最も苦痛だったのは「トレーニングと信頼性のテストフェーズ」で、これは完全な分析を行う前に発生しました。これには2つの目的がありました(詳細な説明、およびコンテンツ分析統計文献のインターコーダー信頼性基準への参照については、リンクされたペーパーの9ページを参照)。
すべてのコーダー、つまりコンテンツの読者が、同じ定性的な定義でトレーニングされたことを確認します。ジョエルの分析では、これは誰もがプロジェクトが「友好的」と「非友好的」をどのように定義したかを正確に知っていることを意味しました。
すべてのコーダーがこれらのルールを確実に解釈したことを確認します。つまり、サンプルをサンプリングし、サブセットを分析し、定性的評価のペアワイズ相関が非常に類似していることを統計的に示しました。
信頼性テストは、3〜4回やらなければならなかったので痛いです。-1-がロックダウンされ、-2-が十分なペアワイズ相関を示すまで、完全な分析の結果は疑わしいものでした。有効または無効であることを証明できませんでした。最も重要なことは、最終的なサンプルセットの前に信頼性のパイロットテストを行う必要があったことです。
私の質問はこれです:ジョエルの統計分析にはパイロットの信頼性テストがなく、「友好性」の運用上の定義を確立しませんでした。最終データは、彼の結果の統計的妥当性について何か言うほど信頼できるものでしたか?
1つの観点から、インターコーダーの信頼性と一貫した運用定義の価値に関するこの入門書を検討してください。同じソースの詳細から、パイロットの信頼性テストについて読むことができます(リストの項目5)。
Andy W.の彼の答えの提案に従って、Rのこのコマンドシリーズを使用して、ここで入手可能なデータセットのさまざまな信頼性統計を計算しようとしています(新しい統計を計算すると更新されます)。
パーセント契約 (許容差= 0):0.0143
パーセント契約(許容差= 1):11.8
クリッペンドルフのアルファ: 0.1529467