タグ付けされた質問 「cohens-kappa」

4
平易な英語でのコーエンのカッパ
データマイニングの本を読んでいますが、分類器の予測パフォーマンスを評価する手段としてカッパ統計に言及しています。しかし、私はこれを理解できません。私はまた、ウィキペディアをチェックしますが、それはあまりにも助けなかった:https://en.wikipedia.org/wiki/Cohen's_kappaを。 Cohenのカッパは、分類器の予測パフォーマンスの評価にどのように役立ちますか?それは何を伝えますか? 100%のカッパは、分類器がランダムな分類器と完全に一致していることを意味しますが、これが分類器のパフォーマンスの評価にどのように役立つかわかりませんか? 40%kappaはどういう意味ですか?40%の時間、分類器はランダム分類器と一致しているということですか?もしそうなら、それは私に何を伝え、分類器を評価するのに役立ちますか?

1
Cohenのカッパ分散(および標準誤差)の計算
Kappa()統計は、2人の評価者間の一致を測定するために、コーエン[1]によって1960年に導入されました。しかし、その分散はかなり長い間矛盾の原因でした。κκ\kappa 私の質問は、大きなサンプルでどの分散計算を使用するのが最適かについてです。私は、Fleiss [2]によってテストおよび検証されたものが正しい選択であると信じていますが、これが正しいと思われる唯一の公開されたものではないようです(かなり最近の文献で使用されています)。 現在、漸近の大きなサンプル分散を計算する2つの具体的な方法があります。 Fleiss、Cohen、Everittが公開した修正済みメソッド[2]。 Colgaton、2009 [4](106ページ)の本に記載されているデルタ方式。 この混乱の一部を説明するために、ここに強調鉱山のFleiss、CohenおよびEveritt [2]による引用があります。 多くの人間の努力は、最終的な成功が達成される前に繰り返される失敗に呪われています。エベレスト山のスケーリングはその一例です。北西航路の発見は2番目です。kappaの正しい標準誤差の導出は3番目です。 そのため、ここで何が起こったのかを簡単に要約します。 1960:Cohenは、論文「名目スケールの一致係数」[1]を発行し、と呼ばれる2人の評価者間の偶然修正された一致の尺度を紹介します。ただし、彼は分散計算の誤った式を公開しています。κκ\kappa 1968年:エヴァーリットはそれらを修正しようとしますが、彼の式も間違っていました。 1969:Fleiss、CohenおよびEverittは、論文「KappaおよびWeighted Kappaの大きなサンプル標準誤差」[2]で正しい式を公開しています。 1971:Fleiss は、同じ名前で別の統計(ただし、別の統計)を公開しますが、分散の式は正しくありません。κκ\kappa 1979:Fleiss NeeとLandisは、Fleissの修正された式を公開しています。κκ\kappa 最初に、次の表記法を検討します。この表記は、ドットが置かれている次元のすべての要素に加算演算子が適用されることを意味します。 pi.=∑j=1kpij pi.=∑j=1kpij\ \ \ p_{i.} = \displaystyle\sum_{j=1}^{k} p_{ij} p.j=∑i=1kpij p.j=∑i=1kpij\ \ \ p_{.j} = \displaystyle\sum_{i=1}^{k} p_{ij} これで、カッパを次のように計算できます。 κ^=po−pc1−pe κ^=po−pc1−pe\ \ \ \hat\kappa = \displaystyle\frac{p_o-p_c}{1-p_e} その中で po=∑i=1kpii po=∑i=1kpii\ \ \ p_o …

2
順序データまたは間隔データの評価者間信頼性
順序データまたは間隔データに最適な評価者間信頼性方法はどれですか? 「一致の共同確率」または「カッパ」は、名目上のデータ用に設計されていると思います。「ピアソン」と「スピアマン」は使用できますが、主に2人の評価者に使用されます(ただし、3人以上の評価者に使用できます)。 順序データまたは間隔データに適した他の尺度、つまり3人以上の評価者はいますか?

3
非常に不均衡なデータの分類/評価指標
不正検出(クレジットスコアリングのような)問題に対処します。そのため、詐欺的観測と非詐欺的観測の間には非常に不均衡な関係があります。 http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.htmlは、さまざまな分類指標の優れた概要を提供します。Precision and Recallまたはkappa両方が良い選択のようです: そのような分類器の結果を正当化する1つの方法は、それらをベースライン分類器の結果と比較し、それらが実際にランダムチャンス予測よりも優れていることを示すことです。 私が理解している限りkappaでは、ランダムなチャンスが考慮されるので、ここでの方がわずかに良い選択かもしれません。より平易な英語でCohenのカッパ Iことを理解しkappa、情報ゲインの概念を扱いました: [...] 80%の観測精度は、50%の予測精度に対して、75%の予測精度ではあまり印象的ではありません[...] したがって、私の質問は次のようになります。 kappaこの問題に対してより適切な分類メトリックであると仮定するのは正しいですか? 単に使用kappaするだけで、分類アルゴリズムに対する不均衡の悪影響を防ぐことができますか?再(ダウン/アップ)サンプリングまたはコストベースの学習(http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdfを参照)はまだ必要ですか?

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
多くの非重複評価者による評価者間の信頼性
AmazonのMechanical Turkで少なくとも3つの異なる評価者によって公称スケールで分類された11,000以上の個別のアイテムのデータセットがあります。 88の異なる評価者がタスクの判断を提供し、約800の判断を完了する評価者はいませんでした。ほとんどの提供はそれよりも大幅に少ない。 私の質問はこれです: 私は、単にコンセンサスを見るよりも、格付けに対する評価者間の信頼性のある尺度を計算したいと思います。しかし、私が最もよく知っている測定法であるフライスカッパには、アイテムのセット全体に対して一貫した評価者グループが必要であるため、フライスカッパを使用してデータでIRRをチェックすることはできません。これは正しいです?私が使用できる別の方法はありますか? 何かアドバイスをいただければ幸いです!
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.