Joel Spolskyの「Hunting of the Snark」は、有効な統計コンテンツ分析を投稿していますか?


25

最近コミュニティ速報を読んでいるなら、StackExchangeネットワークのCEOである Joel SpolskyによるStackExchange公式ブログへの投稿であるThe Hunting of the Snarkを見たことがあるでしょう彼は、外部ユーザーの観点から「友好性」を評価するために、SEのコメントのサンプルで実施された統計分析について議論しています。コメントはStackOverflowからランダムにサンプリングされ、コンテンツアナリストはAmazonのMechanical Turkコミュニティのメンバーでした。これは、手頃な料金で小規模で短いタスクを行う労働者に企業をつなぐ仕事の市場です

少し前まで、私は政治学の大学院生であり、私が受講したクラスの1つは統計コンテンツ分析でした。クラスの最終プロジェクトは、実際その全体的な目的は、ニューヨークタイムズの戦争報告の詳細な分析を行い、アメリカ人が戦争中のニュース報道について行った多くの仮定が正確であったかどうかをテストすることでした(ネタバレ:彼らがない)。このプロジェクトは巨大でとても楽しいものでしたが、最も苦痛だったのは「トレーニングと信頼性のテストフェーズ」で、これは完全な分析を行う前に発生しました。これには2つの目的がありました(詳細な説明、およびコンテンツ分析統計文献のインターコーダー信頼性基準への参照については、リンクされたペーパーの9ページを参照)。

  1. すべてのコーダー、つまりコンテンツの読者が、同じ定性的な定義でトレーニングされたことを確認します。ジョエルの分析では、これは誰もがプロジェクトが「友好的」と「非友好的」をどのように定義したかを正確に知っていることを意味しました。

  2. すべてのコーダーがこれらのルールを確実に解釈したことを確認します。つまり、サンプルをサンプリングし、サブセットを分析し、定性的評価のペアワイズ相関が非常に類似していることを統計的に示しました。

信頼性テストは、3〜4回やらなければならなかったので痛いです。-1-がロックダウンされ、-2-が十分なペアワイズ相関を示すまで、完全な分析の結果は疑わしいものでした。有効または無効であることを証明できませんでした。最も重要なことは、最終的なサンプルセットの前に信頼性のパイロットテストを行う必要があったことです。

私の質問はこれです:ジョエルの統計分析にはパイロットの信頼性テストがなく、「友好性」の運用上の定義を確立しませんでした。最終データは、彼の結果の統計的妥当性について何か言うほど信頼できるものでしたか?

1つの観点から、インターコーダーの信頼性と一貫した運用定義の価値に関するこの入門書を検討してください。同じソースの詳細から、パイロットの信頼性テストについて読むことができます(リストの項目5)。

Andy W.の彼の答えの提案に従って、Rのこのコマンドシリーズ使用して、ここで入手可能なデータセットのさまざまな信頼性統計を計算しようとしています(新しい統計を計算すると更新されます)。

記述統計はこちら

パーセント契約 (許容差= 0):0.0143

パーセント契約(許容差= 1):11.8

クリッペンドルフのアルファ: 0.1529467

また、別の質問でこのデータのアイテム応答モデルを試しました。


1
公にコーディングデータを解放しなかった 1が行くと1がしたい場合コーダー自身の信頼性を評価することができるように。
アンディW

3
日時:#1 -そんなにコメントがあれば上の運動ではなかったことに留意すべきだった友好的かどうかが、より多くのコメントがされた場合に、運動の認知外のユーザーに優しいかないと。
レイチェル

3
@レイチェルそれは正しいとは思わない。部外者がSOに関するコメントをどのように認識しているかを測定している場合、20人よりもかなり大きなサンプルセットが必要でした。
クリストファー

2
それは、部外者がコメントをどのように知覚するかについて何かを結論付けることと、コメント自体について何かを結論付けることとの違いです。最初のケースでは、はるかに多くの人々のサンプルが必要であり、結論は「外部の人はSOコメントの2.3%が友好的ではないと思う」でしょう。2つ目は、「SOコメントの2.3%が友好的ではない」ということです。これらは異なる結論であり、信頼性テストなしではコーダーが同様にコメントを評価することを実証できないため、2番目の結論は作成できない可能性があると思います。
クリストファー

2
しかし、@ Christopher Friendlinessは非常に主観的です。誰に尋ねるかに応じて、同じコメントを友好的と非友好的の両方として表示できます。そのため、自分とまったく同じ視点を持つ誰かではなく、多数のランダムユーザーから視点を得ることがより重要だと思います。
レイチェル

回答:


6

パーセント契約(許容差= 0):0.0143

パーセント契約(許容差= 1):11.8

クリッペンドルフのアルファ:0.1529467

これらの合意測定では、実質的にカテゴリ合意はないことが示されています。各コーダーは、コメントを「友好的」または「非友好的」と判断するための独自の内部カットオフポイントを持っています。

3つのカテゴリが順序付けられていると仮定した場合、つまり、非友好的<中立<友好的である場合、別の一致の尺度としてクラス内相関を計算することもできます。1000個のコメントのランダムサンプルでは、​​.28のICC(2,1)と.88のICC(2、k)があります。つまり、20人の評価者のうち1人のみを採用した場合、結果は非常に信頼性が低くなります(.28)。20人の評価者の平均を採用した場合、結果は信頼できます(.88)。3人のランダムな評価者の異なる組み合わせをとると、平均信頼性は.50から.60の間であり、それでも低すぎると判断されます。

2つのコーダー間の平均2変量相関は0.34で、これもかなり低いです。

これらの合意尺度がコーダーの品質尺度と見なされている場合(実際に良好な同意を示す必要があります)、答えは次のとおりです。これが「ランダムな人の間での自発的な一致がどれだけ良いか」の尺度とみなされる場合、答えは「あまり高くない」です。ベンチマークとして、物理的魅力評価の平均相関は約.47-.71です[1]

[1] Langlois、JH、Kalakanis、L.、Rubenstein、AJ、Larson、A.、Hallam、M.、&Smoot、M.(2000)。マキシムまたは美の神話?メタ分析および理論的レビュー。Psychological Bulletin、126、390–423。doi:10.1037 / 0033-2909.126.3.390


7

スコアの信頼性は、古典テスト理論の観点から頻繁に解釈されます。ここでは、真のスコアがありますが、X特定の結果で観察されるのは、真のスコアだけでなく、何らかのエラーのある真のスコア(つまりObserved = X + error)です。理論的には、同じ基礎テストの複数の観測された測定を行うことにより行うことにより(これらのテストのエラーの分布についていくつかの仮定を行う)、観測されていない真のスコアを測定できます。

このフレームワークでは、複数の測定値が同じ基礎テストを測定していると仮定する必要があることに注意てください。テスト項目の信頼性の低さは、観測された測定値が同じ基礎テストを測定していないことの証拠として頻繁に採用されます。これは単なる分野の慣例にすぎませんが、信頼性が低いため、それ自体は(統計的な意味で)アイテムが同じ構造を測定していないことを証明しません。したがって、非常に信頼性の低いテストであっても、多くの観測された測定を行うことにより、真のスコアの信頼できる測定について考えることができると主張することができます。

また、古典的なテスト理論がそのようなテストを解釈する唯一の方法であるとは限らず、多くの学者は潜在変数と項目反応理論の概念は常に古典的なテスト理論よりも適切であると主張します。


また、古典的なテスト理論における同様の暗黙の仮定は、人々が信頼性が高すぎると言うときです。特定の項目が基礎となるテストを測定するかどうかの有効性については何も述べていませんが、信頼性が高すぎる場合、研究者はテスト間のエラーが独立していないという証拠としてそれを取ります。

自分で信頼性を計算しないことについて、なぜあなたがそんなに激しいのか、私にはよくわかりません。なぜこれを実行できず、この追加情報に照らして分析を解釈できないのでしょうか?


それでまず、私は卒業生ではなく、正当な理由で統計をしているわけではないことを指摘しておきます。それは私の得意ではありませんでした。方法論を誤解している可能性があります。それでも同じように、あなたと私は信頼性のさまざまな尺度について話しているかもしれない、または少なくとも最終分析が行われる前にインターコーダーの信頼性を測定することを提案する研究が有効であると思う。質問を編集して、Webで見つけた情報源を1つ含めるようにしました。
クリストファー

これは異なるコンテキスト(継続的な結果ではなく、二分されたテスト項目の信頼性)ですが、ロジックは機能的に同じです。したがって、なぜ信頼性の特定の尺度に言及しなかったのか(多くあります)。あなたの引用はについて何もほのめかしませんbefore the final analysisので、その概念がどこから来たのかよくわかりません。
アンディW

あはは。あなたは正しい、それは全く必要条件ではありません。私が投稿したリンクをさらに読むと、このパイロットテストは方法論的なベストプラクティスと見なされているようです(パイロットテストを検索してください)。
クリストファー

新しい情報に対応するために質問を変更しました。エラーの修正にご協力いただきありがとうございます。
クリストファー

2
他の質問があります。
クリストファー
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.