統計とビッグデータ scoring-rules

7

これは、ここで間接的に複数回尋ねられた一般的な質問ですが、信頼できる答えは1つありません。参照のためにこれに対する詳細な答えを持っていることは素晴らしいことです。すべての分類の中で正しい分類の割合である精度は、非常に単純で非常に「直感的な」尺度ですが、不均衡なデータには不十分な尺度になる場合があります。なぜ私たちの直感がここで私たちを誤った方向に導き、この測定に他の問題がありますか？

107 machine-learning classification accuracy model-evaluation scoring-rules

3

クラスの不均衡の問題の根本的な原因は何ですか？

私は最近、機械学習/統計学習の「クラスの不均衡問題」について多くのことを考えてきましたが、何が起こっているのか分からないという感覚をさらに深めています。まず、用語を定義（または試行）します。クラス不均衡問題マシン/統計的学習では1クラスに0のクラスの割合が非常に偏っているとき、いくつかのバイナリ分類（*）アルゴリズムはうまく機能しないという観察です。したがって、たとえば、上記の例では、すべての1クラスごとに100個の000クラスがある場合、クラスの不均衡は1から100または1 ％です。1111111001001001%1%1\% 私が見た問題の声明のほとんどは、十分な資格と考えるもの（どのモデルが苦労しているのか、不均衡が問題であるか）を欠いており、これが私の混乱の原因の1つです。機械学習/統計学習の標準テキストの調査では、ほとんど何もわかりません。統計斜の要素と統計的学習の概要は、インデックス内の「クラスの不均衡」を含んでいません。予測データ分析の機械学習では、インデックスに「クラスの不均衡」も含まれていません。マーフィーの機械学習：確率的観点には、インデックスに「クラスの不均衡*」が含まれています。SVMのセクションを参照しますが、次の興味深いコメントが見つかりました。 SVMは確率を使用して不確実性をモデル化しないため、これらの困難、およびそれらを修正するために提案された多数のヒューリスティックが根本的に発生するため、出力スコアはクラス間で比較できないことに注意してください。このコメントは私の直観と経験を思い起こさせます：私の以前の仕事では、ロジスティック回帰と勾配ブーストツリーモデルを（二項対数尤度を最小化するために）不均衡なデータ（1%1%1\%クラスの不均衡の程度）に、パフォーマンスの明らかな問題。私は（どこかで）分類木ベースのモデル（木自体とランダムフォレスト）もクラスの不均衡の問題に苦しんでいると読みました。これにより、水が少し濁り、ツリーは何らかの意味で確率を返します。つまり、ツリーの各終端ノードのターゲットクラスの投票レコードです。まとめると、私が本当に望んでいるのは、クラスの不均衡問題（存在する場合）を引き起こす力の概念的な理解です。不適切に選択されたアルゴリズムと怠algorithmsなデフォルトの分類しきい値を使用して自分自身で行うことですか？適切なスコアリング基準を最適化する確率モデルを常に当てはめると消えますか？別の言い方をすれば、原因は単に損失関数の不適切な選択、つまり、厳密な分類ルールと全体的な精度に基づいてモデルの予測力を評価することですか？その場合、適切なスコアリングルールを最適化しないモデルは役に立たない（または少なくとも有用性が低い）か？（*）分類とは、バイナリ応答データに適合する統計モデルを意味します。私はない、それはかもしれないが、私の目標は、一つのクラスにハード譲渡またはその他であると仮定します。

30 classification predictive-models unbalanced-classes scoring-rules

1

ポアソンモデルの相互検証のエラーメトリック

カウントを予測しようとしているモデルを相互検証しています。これがバイナリ分類の問題である場合は、フォールドアウトAUCを計算し、これが回帰問題である場合は、フォールドアウトRMSEまたはMAEを計算します。ポアソンモデルの場合、サンプル外予測の「精度」を評価するためにどのエラーメトリックを使用できますか？AUCのポアソン拡張で、予測が実際の値をどの程度適切に並べるかを調べますか？カウントのための多くのKaggleコンテスト（たとえば、yelpレビューで得られる有用な投票数、または患者が病院で過ごす日数）は、二乗平均平方根誤差、またはRMLSEを使用しているようです。 /編集：私がやっていることの1つは、予測値の10分の1を計算してから、十分な数でビニングされた実際のカウントを調べることです。十分位数1が低く、十分位数10が高く、その間の十分位数が厳密に増加している場合、モデルを「良い」と呼んでいますが、このプロセスを定量化するのに苦労しており、より良い方法があると確信していますアプローチ。 /編集2：予測値と実際の値を取得し、「エラー」または「精度」メトリックを返す数式を探しています。私の計画は、交差検証中にフォールド外データでこの関数を計算し、それを使用してさまざまなモデル（ポアソン回帰、ランダムフォレスト、GBMなど）を比較することです。たとえば、そのような関数の1つですRMSE = sqrt(mean((predicted-actual)^2))。別のそのような関数はAUCです。どちらの関数もポアソンデータには適切でないようです。

29 cross-validation poisson-distribution count-data deviance scoring-rules

2

不適切なスコアリングルールを使用するのが適切な場合

マークル＆スタイバーズ（2013）執筆：適切なスコアリングルールを正式に定義するには、真の成功確率pを持つベルヌーイ試行dの確率的予測をとします。適切なスコアリングルールは、f = pの場合に期待値が最小化されるメトリックです。fffdddpppf= pf=pf = p これは良いことだと思います。なぜなら、私たちは、予測者が彼らの本当の信念を正直に反映する予測を生成することを奨励したいからです。不適切なスコアリングルールを使用することが適切である実際の例はありますか？ Reference Merkle、EC、およびSteyvers、M。（2013）。厳密に適切なスコアリングルールの選択。意思決定分析、10（4）、292-304

27 classification forecasting scoring-rules

6

ROC AUCとF1スコアの選択方法は？

私は最近、Roc aucスコアが競合要件に従って使用されるKaggleコンテストを完了しました。このプロジェクトの前は、通常、モデルのパフォーマンスを測定するためのメトリックとしてf1スコアを使用していました。今後、これらの2つのメトリックをどのように選択したらよいでしょうか？いつ、それぞれの長所と短所を使用するのですか？ところで、私はここで記事を読みましたAUCとF1-scoreの違いは何ですか？、しかし、どちらを使用するかはわかりません。助けてくれてありがとう！

26 machine-learning modeling roc scoring-rules

1

適切なスコアリングルールの選択

適切なスコアリングルールに関するほとんどのリソースでは、ログ損失、ブライアースコア、または球形スコアリングなど、さまざまなスコアリングルールに言及しています。しかし、彼らはしばしばそれらの違いについて多くのガイダンスを与えません。（別紙A：ウィキペディア。）対数スコアを最大化するモデルを選択することは、最尤モデルを選択することに対応します。これは、対数スコアリングを使用するための良い議論のようです。ブライアースコアまたは球形スコアリング、または他のスコアリング規則について同様の正当化がありますか？なぜ誰かが対数スコアリングではなく、これらの1つを使用するのでしょうか？

22 machine-learning classification model-selection theory scoring-rules

3

ネイトシルバーの予測の正確さをどのように判断できますか？

まず、彼は結果の確率を与えます。そのため、たとえば、米国の選挙に対する彼の予測は、現在クリントンが82％対トランプが18％です。今、トランプが勝ったとしても、彼が勝ったはずの時間の18％だけではなかったことをどうやって知るのですか？もう1つの問題は、彼の確率が時間とともに変化することです。7月31日、トランプとクリントンの間はほぼ50対50でした。私の質問は、彼は同じ結果で同じ将来のイベントに対して毎日異なる確率を持っていることを考えると、その日まで利用可能な情報に基づいて予測を行った毎日の正確さをどのように測定できますか？

19 forecasting prediction validation accuracy scoring-rules

1

AUCが半適切なスコアリングルールであることはどういう意味ですか？

適切なスコアリングルールは、「真の」モデルによって最大化されるルールであり、システムの「ヘッジ」やゲームを許可しません（スコアを改善するためのモデルの真の信念である異なる結果を意図的に報告する）。ブライアースコアは適切であり、正確性（正しく分類された割合）は不適切であり、しばしば落胆します。時々、AUCは半適切なスコアリングルールと呼ばれ、精度が完全に偽ではなく、適切なルールよりも感度が低くなることがわかります（たとえば、https：//stats.stackexchange.com/a/90705/53084）。準適切なスコアリングルールとはどういう意味ですか？どこかで定義されていますか？

16 classification references roc measurement-error scoring-rules

1

バイナリ分類設定の精度は不適切なスコアリングルールですか？

私は最近、確率的分類器の適切なスコアリングルールについて学んでいます。このWebサイトのいくつかのスレッドは、精度が不適切なスコアリングルールであり、ロジスティック回帰などの確率モデルによって生成された予測の品質を評価するために使用すべきではないことを強調しています。ただし、私が読んだかなりの数の学術論文では、バイナリ分類設定における（厳密ではない）適切なスコアリングルールの例として、誤分類の損失を挙げています。私が見つけた最も明確な説明は、7ページの下部にあるこのペーパーにありました。私の理解では、誤分類損失を最小化することは、精度を最大化することに相当します。たとえば、論文の表記を使用して、対象クラスの真の条件付き確率（ある特徴ベクトルxが与えられた）がη= 0.7の場合、予測q > 0.5の場合、予想損失R（η| q）= 0.7（0）+ 0.3（1）= 0.3、およびq≤0.5の ≤≤\leq、予想損失は0.7です。したがって、損失関数はq =η= 0.7 で最小化され、結果として適切になります。真の条件付き確率と予測の全範囲への一般化は、そこから十分簡単に思えます。上記の計算とステートメントが正しいと仮定すると、一意でない最小値と、同じ最小予測損失を共有する0.5を超えるすべての予測の欠点は明らかです。ログスコア、ブライアースコアなどの従来の代替案に対して精度を使用する理由はまだありません。しかし、バイナリ設定で確率モデルを評価する場合、精度が適切なスコアリングルールであると言うのは正しいですか。間違い-誤分類の損失を理解するのか、それとも正確に分類するのか。

13 probability accuracy scoring-rules

2

確率モデルを調整しながら最適なビン幅を選択する方法は？

背景：発生する結果の確率を予測するモデルを調整する方法について、いくつかの素晴らしい質問/回答があります。例えばブライアースコア、および解像度、不確実性、信頼性への分解。較正プロットと等張回帰。これらの方法では、予測結果に対するビニング方法の使用が必要になることが多く、結果（0、1）の振る舞いは、平均結果をとることによりビン上で平滑化されます。問題：ただし、ビンの幅を選択する方法を教えてくれるものは見つかりません。質問：最適なビン幅を選択するにはどうすればよいですか？試行：使用されている2つの一般的なビンの幅は次のようです。等幅ビニング、たとえば、間隔[0、1]の10％をカバーする10個のビン。ここで説明する Tukeyのビニング方法。しかし、最も誤ってキャリブレーションされた予測確率の間隔を見つけることに関心がある場合、ビンのこれらの選択は最も最適ですか？

12 probability predictive-models binary-data calibration scoring-rules

1

ブライアスコアに類似した平均絶対誤差の名前？

昨日の質問イベントの確率を推定するモデルの精度を決定することで、確率スコアリングに興味を持ちました。 1N∑i=1N(predictioni−referencei)21N∑i=1N(predictioni−referencei)2\frac{1}{N}\sum\limits _{i=1}^{N}(prediction_i - reference_i)^2 1N∑i=1N|predictioni−referencei|1N∑i=1N|predictioni−referencei|\frac{1}{N}\sum\limits _{i=1}^{N}|prediction_i - reference_i| have a name, too?

12 classification error validation scoring-rules brier-score

1

イベントの確率を推定するモデルの精度を決定する

私は、aとbの2つの結果を持つイベントをモデリングしています。aまたはbが発生する確率を推定するモデルを作成しました（つまり、モデルはaが40％の確率で発生し、bが60％の確率で発生することを計算します）。私は、モデルからの推定値を用いた試験の結果の大きな記録を持っています。モデルがこのデータをどのくらい正確に使用しているかを定量化したいのですが、これは可能ですか？

12 predictive-models scoring-rules

3

キャリブレーションの測定に最適なメトリックを選択するにはどうすればよいですか？

私はプログラミングし、テスト駆動開発を行います。コードに変更を加えた後、テストを実行します。成功することもあれば失敗することもあります。テストを実行する前に、テストが成功するという私の信任のために、0.01から0.99までの数字を書き留めます。私のテストが成功するか失敗するかを予測することで、私が改善しているかどうかを知りたいです。また、テストが月曜日と金曜日のどちらで成功するかを予測するのが得意かどうかを追跡できるとよいでしょう。テストの成功を予測する私の能力が、追跡する他のメトリックと相関している場合は、知りたいです。これにより、適切なメトリックを選択するタスクが残ります。SuperforcastingでPhilip Tetlockは、Brierスコアを使用して、専門家がどれだけうまく校正されているかを測定することを提案しています。文献で提案されているもう1つの指標は、対数スコアリングルールです。他の可能な候補者もいます。使用するメトリックをどのように決定しますか？スコアリングルールを他のルールよりも優先することについての議論はありますか？

10 forecasting decision-theory calibration scoring-rules

6

ロジスティック回帰はすべて1を予測し、0は予測しない

私は、ロジスティック回帰とランダムフォレストを使用して、ローンのデフォルトの確率を分析しています。私がロジスティック回帰を使用する場合、予測は常にすべて1です（これはローンが良いことを意味します）。私はこれを見たことがなく、問題を解決するためにどこから始めればよいかわかりません。60万行の22列があります。列の数を減らすと、ロジスティック回帰で同じ結果が得られます。なぜロジスティック回帰はそれほど間違っているのでしょうか？ **Actual from the data** 0 : 41932 1 : 573426 **Logistic regression output** prediction for 1 when actually 0: 41932 prediction for 1 when actually 1:573426 A**s you can see, it always predicts a 1** **Random forests does better:** actual 0, pred 0 : 38800 actual 1, …

10 regression logistic predictive-models unbalanced-classes scoring-rules

1

相互に排他的でないカテゴリを分類できる深層学習モデル

例：仕事の説明に「英国のJavaシニアエンジニア」という文があります。私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい：English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか？「編集」：従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます例：3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか？それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか？

9 machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty

タグ付けされた質問 「scoring-rules」

タグ付けされた質問「scoring-rules」