統計とビッグデータ agreement-statistics

2

Joel Spolskyの「Hunting of the Snark」は、有効な統計コンテンツ分析を投稿していますか？

最近コミュニティ速報を読んでいるなら、StackExchangeネットワークのCEOである Joel SpolskyによるStackExchange公式ブログへの投稿であるThe Hunting of the Snarkを見たことがあるでしょう。彼は、外部ユーザーの観点から「友好性」を評価するために、SEのコメントのサンプルで実施された統計分析について議論しています。コメントはStackOverflowからランダムにサンプリングされ、コンテンツアナリストはAmazonのMechanical Turkコミュニティのメンバーでした。これは、手頃な料金で小規模で短いタスクを行う労働者に企業をつなぐ仕事の市場です。少し前まで、私は政治学の大学院生であり、私が受講したクラスの1つは統計コンテンツ分析でした。クラスの最終プロジェクトは、実際その全体的な目的は、ニューヨークタイムズの戦争報告の詳細な分析を行い、アメリカ人が戦争中のニュース報道について行った多くの仮定が正確であったかどうかをテストすることでした（ネタバレ：彼らがない）。このプロジェクトは巨大でとても楽しいものでしたが、最も苦痛だったのは「トレーニングと信頼性のテストフェーズ」で、これは完全な分析を行う前に発生しました。これには2つの目的がありました（詳細な説明、およびコンテンツ分析統計文献のインターコーダー信頼性基準への参照については、リンクされたペーパーの9ページを参照）。すべてのコーダー、つまりコンテンツの読者が、同じ定性的な定義でトレーニングされたことを確認します。ジョエルの分析では、これは誰もがプロジェクトが「友好的」と「非友好的」をどのように定義したかを正確に知っていることを意味しました。すべてのコーダーがこれらのルールを確実に解釈したことを確認します。つまり、サンプルをサンプリングし、サブセットを分析し、定性的評価のペアワイズ相関が非常に類似していることを統計的に示しました。信頼性テストは、3〜4回やらなければならなかったので痛いです。-1-がロックダウンされ、-2-が十分なペアワイズ相関を示すまで、完全な分析の結果は疑わしいものでした。有効または無効であることを証明できませんでした。最も重要なことは、最終的なサンプルセットの前に信頼性のパイロットテストを行う必要があったことです。私の質問はこれです：ジョエルの統計分析にはパイロットの信頼性テストがなく、「友好性」の運用上の定義を確立しませんでした。最終データは、彼の結果の統計的妥当性について何か言うほど信頼できるものでしたか？ 1つの観点から、インターコーダーの信頼性と一貫した運用定義の価値に関するこの入門書を検討してください。同じソースの詳細から、パイロットの信頼性テストについて読むことができます（リストの項目5）。 Andy W.の彼の答えの提案に従って、Rのこのコマンドシリーズを使用して、ここで入手可能なデータセットのさまざまな信頼性統計を計算しようとしています（新しい統計を計算すると更新されます）。記述統計はこちらパーセント契約（許容差= 0）：0.0143 パーセント契約（許容差= 1）：11.8 クリッペンドルフのアルファ： 0.1529467 また、別の質問でこのデータのアイテム応答モデルを試しました。

25 reliability agreement-statistics methodology

2

順序データまたは間隔データの評価者間信頼性

順序データまたは間隔データに最適な評価者間信頼性方法はどれですか？「一致の共同確率」または「カッパ」は、名目上のデータ用に設計されていると思います。「ピアソン」と「スピアマン」は使用できますが、主に2人の評価者に使用されます（ただし、3人以上の評価者に使用できます）。順序データまたは間隔データに適した他の尺度、つまり3人以上の評価者はいますか？

25 reliability psychometrics agreement-statistics cohens-kappa

5

学生の論文を採点する際に、寛大さのレベルが異なるマーカーの効果をどのようにうまく処理できますか？

約600人の学生が広範な信頼性/評価のスコアを獲得しており、これは信頼性/妥当性が良好であると想定できます。評価は100点満点で、コンピューターでマークされた多肢選択式のテストです。これらの600人の学生は、2番目のマイナーな評価のスコアも持っています。評価のこの2番目の部分では、11人の異なる採点者を含む11のコホートに分けられ、採点の「寛大さ」またはその欠如に関して、採点者間で望ましくないほど大きなばらつきがあります。この2番目の評価も100点満点です。学生はランダムにコホートに割り当てられたわけではなく、コホート間のスキルレベルの違いを期待する十分な理由があります。 2番目の課題のコホートマーカーの違いが、個々の学生の実質的な利点/欠点にならないようにするタスクを提示します。私の考えは、コホート内の個人差を維持しながら、2回目の評価でコホートスコアを取得して最初のコホートスコアと一致させることです。2つのタスクのパフォーマンスは高い相関性があると信じるに十分な理由があると仮定する必要がありますが、マーカーの寛大さはかなり異なります。これが最善のアプローチですか？そうでない場合、何ですか？回答者が、RやSPSS、Excelなどで適切なソリューションを実装する方法について実用的なヒントを提供していただければ幸いです。

13 agreement-statistics

2

イベント時間に関する不確実性を伴う時系列のイベントに対する評価者間の信頼性

時系列でイベントを識別しようとする複数の独立したコーダーがいます-この場合、対面の会話のビデオを見て、特定の非言語的行動（たとえば、頭のうなずき）を探し、それぞれの時間とカテゴリをコーディングしますイベント。このデータは、高いサンプリングレート（30フレーム/秒）の離散時系列または連続時系列のどちらかが扱いやすい方として合理的に扱うことができます。評価者間信頼性の尺度を計算したいのですが、イベントがいつ発生したかについて不確実性があると予想しています。つまり、たとえば、あるコーダーが、他のコーダーが考えていたよりも4分の1秒遅れて特定の動きが始まったことをコーディングすることを期待しています。これらが役立つ場合、これらはまれなイベントです。通常、イベント間で少なくとも数秒（数百のビデオフレーム）。これらの種類の同意と不一致の両方に注目する評価者間信頼性を評価する良い方法はありますか？（1）評価者は、発生したイベント（ある場合）に同意しますか？（2）発生時に同意しますか？後者は私にとって重要です。なぜなら、私はこれらのイベントのタイミングを、人々が何を言っているかなど、会話で起こっている他の事柄と比較して見ることに興味があるからです。私の分野での標準的な実践は、物事をタイムスライス、たとえば1/4秒程度に分割し、各コーダーがタイムスライスごとに報告するイベントを集計してから、コーエンのカッパまたは同様の尺度を計算することです。しかし、スライスの継続時間の選択はアドホックであり、イベントの時間の不確実性についてはよくわかりません。私がこれまでに持っていた最も良い考えは、ある種の信頼性曲線を計算できるということです。2つのイベントが同時にコーディングされていると見なすウィンドウのサイズの関数としてのカッパのようなもの。でも、そこからどこに行くのかよく分からないけど...

13 time-series reliability agreement-statistics

2

このデータをどのように使用して、学生の論文のグレーディングにおいて、さまざまなレベルのマーカーを校正できますか？

12人の教師が600人の生徒を指導しています。これらの教師が教える12のコホートのサイズは40人から90人の学生の範囲であり、大学院生は特定のコホートに偏って割り当てられており、以前の経験では平均スコアの大学院生のスコアが学部生。教師はコホート内のすべての論文を採点し、100点満点のスコアを割り当てました。各教師はまた、他の3人の教師からランダムに選択された1つの論文を見て、100点満点でした。このようにして36の異なる論文にクロスマークが付けられました。私はこれを私の校正データと呼びます。各コホートの大学院生の数もわかります。私の質問は： A）このキャリブレーションデータを使用して、元のマークを調整して、より公平にすることができますか？特に、過度に寛大/非エネルギーなメーカーの影響をできるだけ洗い流したい。 B）校正データはどの程度適切ですか？このコースで取得したキャリブレーションデータの36の限られたデータポイントの選択肢がなかったため、現在の学期中にこれ以上収集するオプションがありませんでした。ただし、この状況が繰り返し発生する場合は、さらに多くのキャリブレーションデータを収集したり、別の種類のキャリブレーションデータを収集したりできる場合があります。この質問は、私が尋ねた人気のある質問の相対的なものです。学生の論文の評価において、寛大さのレベルが異なるマーカーの影響に最もよく対処するにはどうすればよいですか。。しかし、それは別のコースであり、私が校正データを持っていなかったという主な問題があったので、この質問を読むことがこの現在の問題の背景としてどれほど役立つかはわかりません。

9 teaching agreement-statistics

1

可変数の評価を使用してRの評価者間の信頼性を計算していますか？

ウィキペディアでは、評価者間の信頼性を確認する1つの方法は、変量効果モデルを使用してクラス内相関を計算することです。クラス内相関の例では、 σ2ασ2α+σ2ϵσα2σα2+σϵ2\frac{\sigma_\alpha^2}{\sigma_\alpha^2+\sigma_\epsilon^2} モデルから Yij=μ+αi+ϵijYij=μ+αi+ϵijY_{ij} = \mu + \alpha_i + \epsilon_{ij} 「Yここでijは jは番目 Iで観察番目のグループ、μはα、未観測全体平均でiは iがグループ内のすべての値で共有未観測ランダム効果であり、ε ijは未観測ノイズ項です」。特に私のデータでは、評価者がすべてのものを評価しておらず（ほとんどが20+を評価しています）、さまざまな回数（通常は3〜4）の評価が行われているため、これは特に魅力的なモデルです。質問0：その例の「グループi」（「グループi」）は、評価されているもののグループですか？質問＃1：評価者間の信頼性を求めている場合、評価者と評価対象の2つの項を持つ変量効果モデルは必要ありませんか？結局のところ、両方とも可能なバリエーションがあります。質問＃2：このモデルをRで最もよく表現するにはどうすればよいですか？ているかのように見えます。この問題は、見栄えの良い提案があります。 lmer(measurement ~ 1 + (1 | subject) + (1 | site), mydata) 私は見てカップルの質問、およびLMEのための「ランダム」パラメータの構文は、私には不透明です。lmeのヘルプページを読みましたが、「ランダム」の説明は例がなければ理解できません。この質問は質問の長いリストにいくぶん似ていますが、これが最も近い質問です。ただし、ほとんどの場合、Rについては詳しく説明されていません。

9 r reliability random-effects-model agreement-statistics

4

マルチクラスのマシューズ相関係数

マシューズ相関係数（）は、バイナリ分類の品質を測定する測定値です（[Wikipedia] [1]）。定式化は、真陽性（）、偽陽性（）、偽陰性（）、および真陰性（）の値を利用して、以下のようにバイナリ分類を行います。MCCMCC\textrm{MCC}MCCMCC\textrm{MCC} T P F P F N T NTPTPTPFPFPFPFNFNFNTNTNTN MCC = TP× TN− FP× FN（TP+ FP）（TP+ FN）（TN+ FP）（TN+ FN）−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√MCC=TP×TN−FP×FN(TP+FP)(TP+FN)(TN+FP)(TN+FN)\textrm {MCC} = \frac{TP\times TN - FP\times FN}{\sqrt{\left(TP+FP\right)\left(TP+FN\right)\left(TN+FP\right)\left(TN+FN\right)}} 、、 3つの異なるクラスを分類する必要がある場合があります。上記の定式化を適用して、以下に示すように各クラスの、、、および値を計算した後、マルチクラスケースのを計算できますか？あAABBBCCCMCCMCC\textrm{MCC}TPTPTPTNTNTNFPFPFPFNFNFNTP=TPA+TPB+TPC;TN=TNA+TNB+TNC;FP=FPA+FPB+FPC;FN=FNA+FNB+FNC;TP=TPA+TPB+TPC;TN=TNA+TNB+TNC;FP=FPA+FPB+FPC;FN=FNA+FNB+FNC; TP = TP_A + TP_B + TP_C;\\ TN = TN_A + TN_B + TN_C;\\ FP = FP_A + FP_B + …

9 machine-learning classification multi-class agreement-statistics

3

SVDを実行して欠損値を代入する方法、具体例

SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか？数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください（つまり、数値に別の数値を掛けると答えが得られます）。次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103

8 r missing-data data-imputation svd sampling matlab mcmc importance-sampling predictive-models prediction algorithms graphical-model graph-theory r regression regression-coefficients r-squared r regression modeling confounding residuals fitting glmm zero-inflation overdispersion optimization curve-fitting regression time-series order-statistics bayesian prior uninformative-prior probability discrete-data kolmogorov-smirnov r data-visualization histogram dimensionality-reduction classification clustering accuracy semi-supervised labeling state-space-models t-test biostatistics paired-comparisons paired-data bioinformatics regression logistic multiple-regression mixed-model random-effects-model neural-networks error-propagation numerical-integration time-series missing-data data-imputation probability self-study combinatorics survival cox-model statistical-significance wilcoxon-mann-whitney hypothesis-testing distributions normal-distribution variance t-distribution probability simulation random-walk diffusion hypothesis-testing z-test hypothesis-testing data-transformation lognormal r regression agreement-statistics classification svm mixed-model non-independent observational-study goodness-of-fit residuals confirmatory-factor neural-networks deep-learning

1

複数の評価者、参加者ごとに異なる評価者、および経時変化の可能性がある評価者間信頼性を実行する方法は？

参加者は2回評価され、2つの評価は3年で区切られていました。ほとんどの参加者について、評価は異なる評価者によって行われましたが、一部（10％未満）では、同じ評価者が両方の評価を行いました。合計8人の評価者がおり、2つの評価者が両方の時点で評価を行っていました。さて、評価は仮想の「正しい」値を持つ能力の側面のものだったので、評価者間の絶対的な合意は一貫性よりも重要です。ただし、評価は3年間隔で行われたため、能力に実際の変更があった可能性があります（おそらく変更されていました）。この場合、信頼性の最良のテストは何でしょうか？私はクラス内相関に傾いていますが、ICC1はこれらのデータで実行できる最善の方法ですか？

8 reliability psychometrics agreement-statistics intraclass-correlation

2

多くの非重複評価者による評価者間の信頼性

AmazonのMechanical Turkで少なくとも3つの異なる評価者によって公称スケールで分類された11,000以上の個別のアイテムのデータセットがあります。 88の異なる評価者がタスクの判断を提供し、約800の判断を完了する評価者はいませんでした。ほとんどの提供はそれよりも大幅に少ない。私の質問はこれです：私は、単にコンセンサスを見るよりも、格付けに対する評価者間の信頼性のある尺度を計算したいと思います。しかし、私が最もよく知っている測定法であるフライスカッパには、アイテムのセット全体に対して一貫した評価者グループが必要であるため、フライスカッパを使用してデータでIRRをチェックすることはできません。これは正しいです？私が使用できる別の方法はありますか？何かアドバイスをいただければ幸いです！

8 reliability agreement-statistics cohens-kappa

2

評価者間の信頼性（ICC）が低い場合はどうすればよいですか？

背景：8人の医師がそれぞれ同じ54人の患者を説得力の尺度（1-7リッカート尺度）で評価しました。説得力の測定の平均スコアは、最終的には私の実験の結果の測定になります。評価者間の信頼性は、一貫性のある双方向変量効果モデルを使用して、クラス内相関係数（ICC）として定量化されました。残念ながら、8人の医師の評価者間の信頼性は低かった（ICC = .350、単一の測定）。これらの信頼できないデータを使用して、さらに計画的な分析を実行する必要がありますか？あるいは、評価者間の信頼性が最も高い医師（つまり評価者）のみを含めることは正当化できるのでしょうか？評価者間の信頼性がより良好な2人の医師がいることを発見しました（ICC = .718、N = 2）が、これが他の医師を分析から除外する十分な理由ではないと思います。この問題を扱っている文献への言及があれば、本当にありがたいです。

8 reliability agreement-statistics

タグ付けされた質問 「agreement-statistics」

タグ付けされた質問「agreement-statistics」