タグ付けされた質問 「precision-recall」

P&Rは、取得したインスタンスのセットの関連性を測定する方法です。精度は、取得されたすべてのインスタンスのうちの正しいインスタンスの割合です。関連性は、取得された実際のインスタンスの割合です。P&Rの調和平均はF1スコアです。P&Rは、データマイニングで分類子を評価するために使用されます。

3
ROC対精密およびリコール曲線
私はそれらの間の正式な違いを理解しています。私が知りたいのは、どちらか一方を使用するほうがより適切な場合です。 特定の分類/検出システムのパフォーマンスに関する補完的な洞察を常に提供していますか? それらを両方とも、たとえば論文で提供するのが合理的なのはいつですか?ただ一つではなく? 分類システムのROCと精度の両方のリコールの関連する側面をキャプチャする代替(おそらくより現代的な)記述子はありますか? バイナリとマルチクラス(たとえば、1対すべて)の両方の場合の引数に興味があります。

3
混同マトリックスを使用してマルチクラス分類の精度とリコールをどのように計算しますか?
マルチクラス分類問題の混同マトリックスを使用して、精度を計算し、リコールする方法を疑問に思います。具体的には、観測値は最も可能性の高いクラス/ラベルにのみ割り当てることができます。計算したい: 精度= TP /(TP + FP) リコール= TP /(TP + FN) クラスごとに、マイクロ平均Fメジャーを計算します。


9
Fメジャー値の解釈方法
fメジャー値の違いを解釈する方法を知りたいです。f-measureは精度とリコールのバランスのとれた平均であることは知っていますが、F-measureの違いの実際的な意味について尋ねています。 たとえば、分類器C1の精度が0.4で、別の分類器C2の精度が0.8である場合、C2はC1と比較して2種類のテスト例を正しく分類したと言えます。ただし、ある分類器の分類器C1のF尺度が0.4であり、別の分類器C2のF尺度が0.8である場合、2つの分類器のパフォーマンスの違いについて何を述べることができますか?C2がC1よりもX個のインスタンスを正しく分類していると言えますか?

4
クラスの不均衡の下でのPrecision-Recall曲線の最適化
私はいくつかの予測子を持っている分類タスクを持っています(そのうちの1つが最も有益です)、私は分類器を構築するためにMARSモデルを使用していますも元気)。これで、トレーニングデータに大きなクラスの不均衡があります(各ポジティブサンプルに対して約2700のネガティブサンプル)。情報検索タスクと同様に、私は、上位の肯定的なテストサンプルの予測をより懸念しています。このため、Precision Recall曲線のパフォーマンスは私にとって重要です。 まず、トレーニングデータでモデルをトレーニングし、クラスの不均衡をそのまま維持しました。トレーニング済みのモデルを赤で表示し、最も重要な入力を青で表示します。 不均衡データのトレーニング、不均衡データの評価: クラスの不均衡がモデルをスローしていると考えて、上位のポジティブサンプルの学習はデータセット全体のごく一部であるため、バランスの取れたトレーニングデータセットを取得するためにポジティブトレーニングポイントをアップサンプリングしました。バランスの取れたトレーニングセットでパフォーマンスをプロットすると、良いパフォーマンスが得られます。PR曲線とROC曲線の両方で、訓練されたモデルは入力よりも優れています。 (アップサンプリング)バランスデータのトレーニング、(アップサンプリング)バランスデータの評価: ただし、バランスの取れたデータでトレーニングされたこのモデルを使用して、元のバランスの取れていないトレーニングセットを予測すると、PRカーブのパフォーマンスが低下します。 (アップサンプリングされた)バランスデータのトレーニング、元のアンバランスデータの評価: だから私の質問は: PR曲線の視覚化が訓練されたモデル(赤)のパフォーマンスの低下を示し、ROC曲線がクラスの不均衡のために改善を示すのはなぜですか? リサンプリング/アップサンプリング/ダウンサンプリングのアプローチはこれを解決して、トレーニングを高精度/低リコール領域に集中させることができますか? 高精度/低リコール領域にトレーニングを集中する他の方法はありますか?

1
sklearnの分類レポートの数字はどういう意味ですか?
以下に、sklearnのsklearn.metrics.classification_reportドキュメントから抜粋した例を示します。 私が理解していないのは、クラスが予測ラベルであると信じる各クラスにf1スコア、精度、リコール値がある理由です。f1スコアはモデルの全体的な精度を示していると思います。また、サポート列は何を教えてくれますか?私はそれに関する情報を見つけることができませんでした。 print(classification_report(y_true, y_pred, target_names=target_names)) precision recall f1-score support class 0 0.50 1.00 0.67 1 class 1 0.00 0.00 0.00 1 class 2 1.00 0.67 0.80 3 avg / total 0.70 0.60 0.61 5

2
精度-リコール曲線下面積(PR曲線のAUC)および平均精度(AP)
平均精度(AP)は、精度-リコール曲線(PR曲線のAUC)の下の面積ですか? 編集: PR AUCとAPの違いに関するコメントを次に示します。 AUCは、精度の台形補間によって取得されます。代替の通常ほぼ同等のメトリックは、info.apとして返されるAverage Precision(AP)です。これは、新しい陽性サンプルが呼び出されるたびに取得される精度の平均です。精度が定数セグメントによって補間される場合、AUCと同じであり、TRECが最も頻繁に使用する定義です。 http://www.vlfeat.org/overview/plots-rank.html また、AUC及びaverage_precision_score結果は、学習scikitに同じではありません。これは奇妙なことです。なぜなら、ドキュメントには次のようなものがあるからです。 予測スコアから平均精度(AP)を計算するこのスコアは、精度-想起曲線の下の領域に対応します。 コードは次のとおりです。 # Compute Precision-Recall and plot curve precision, recall, thresholds = precision_recall_curve(y_test, clf.predict_proba(X_test)[:,1]) area = auc(recall, precision) print "Area Under PR Curve(AP): %0.2f" % area #should be same as AP? print 'AP', average_precision_score(y_test, y_pred, average='weighted') print 'AP', average_precision_score(y_test, y_pred, average='macro') print …

1
F1 /ダイススコアとIoU
F1スコア、Diceスコア、およびIoU(結合の交差点)の違いについて混乱しました。ここまでで、F1とDiceは同じものを意味することがわかりました(右?)。IoUは他の2つと非常によく似た式を持っています。 F1 /ダイス:2 TP2 TP+ FP+ FN2TP2TP+FP+FN\frac{2TP}{2TP+FP+FN} IoU / Jaccard:TPTP+ FP+ FNTPTP+FP+FN\frac{TP}{TP+FP+FN} F1が真陽性をより高く重み付けすることを除いて、実用的な違いや注目に値するその他のものはありますか?一方を使用して他方を使用しない状況はありますか?

3
非常に不均衡なデータの分類/評価指標
不正検出(クレジットスコアリングのような)問題に対処します。そのため、詐欺的観測と非詐欺的観測の間には非常に不均衡な関係があります。 http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.htmlは、さまざまな分類指標の優れた概要を提供します。Precision and Recallまたはkappa両方が良い選択のようです: そのような分類器の結果を正当化する1つの方法は、それらをベースライン分類器の結果と比較し、それらが実際にランダムチャンス予測よりも優れていることを示すことです。 私が理解している限りkappaでは、ランダムなチャンスが考慮されるので、ここでの方がわずかに良い選択かもしれません。より平易な英語でCohenのカッパ Iことを理解しkappa、情報ゲインの概念を扱いました: [...] 80%の観測精度は、50%の予測精度に対して、75%の予測精度ではあまり印象的ではありません[...] したがって、私の質問は次のようになります。 kappaこの問題に対してより適切な分類メトリックであると仮定するのは正しいですか? 単に使用kappaするだけで、分類アルゴリズムに対する不均衡の悪影響を防ぐことができますか?再(ダウン/アップ)サンプリングまたはコストベースの学習(http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdfを参照)はまだ必要ですか?

4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

3
不均衡なデータセットのROC対精度-再現率曲線
私はこの議論を読み終えました。彼らは、PR AUCが不均衡なデータセットのROC AUCよりも優れていると主張しています。 たとえば、テストデータセットには10​​個のサンプルがあります。9個のサンプルが陽性で、1個が陰性です。私たちはすべてを肯定的に予測する恐ろしいモデルを持っています。したがって、TP = 9、FP = 1、TN = 0、FN = 0というメトリックが得られます。 次に、精度= 0.9、再現率= 1.0。精度と再現率はどちらも非常に高いですが、分類子が不十分です。 一方、TPR = TP /(TP + FN)= 1.0、FPR = FP /(FP + TN)= 1.0。FPRは非常に高いため、これは適切な分類器ではないことがわかります。 明らかに、ROCは不均衡なデータセットのPRよりも優れています。誰かがPRの方が良い理由を説明できますか?

3
不均衡なデータのROC曲線の下の領域またはPR曲線の下の領域?
使用するパフォーマンス測定値、ROC曲線下の領域(FPRの関数としてのTPR)または精度-リコール曲線下の領域(リコールの関数としての精度)について疑問があります。 私のデータは不均衡です。つまり、負のインスタンスの数は正のインスタンスよりもはるかに多くなっています。 wekaの出力予測を使用しています。サンプルは次のとおりです。 inst#,actual,predicted,prediction 1,2:0,2:0,0.873 2,2:0,2:0,0.972 3,2:0,2:0,0.97 4,2:0,2:0,0.97 5,2:0,2:0,0.97 6,2:0,2:0,0.896 7,2:0,2:0,0.973 そして、私はpROCおよびROCR rライブラリーを使用しています。

4
勾配ブースティングマシンの精度は、反復回数が増えると低下します
caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。 小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

3
非常に不均衡な設定でのコスト重視の学習のための提案
数百万行と100列までのデータセットがあります。共通クラスに属するデータセット内のサンプルの約1%を検出したいと思います。最小精度の制約がありますが、非常に非対称なコストのため、特定のリコールにあまり熱心ではありません(10の肯定的な一致が残っていない限り!) この設定でお勧めするアプローチは何ですか?(論文へのリンクは歓迎、実装へのリンクは歓迎)

5
トレーニングデータを増やすと、システム全体の精度にどのような影響がありますか?
トレーニングデータを増やすとシステム全体が改善される状況では、可能な例で誰かが私に要約することはできますか?トレーニングデータを追加すると、データが過剰に適合し、テストデータの精度が低下する可能性があることをいつ検出しますか? これは非常に非特定の質問ですが、特定の状況に固有の質問に答えたい場合は、そうしてください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.