統計とビッグデータ unbalanced-classes

1

入力行列とバイナリ出力考えます。XXXyyy 分類子のパフォーマンスを測定する一般的な方法は、ROC曲線を使用することです。 ROCプロットでは、対角線はランダム分類子から得られる結果です。不均衡な出力場合、ランダム分類子のパフォーマンスは、異なる確率でまたはを選択して改善できます。yyy000111 このような分類子のパフォーマンスは、ROC曲線プロットでどのように表すことができますか？もう斜めではなく、角度の異なる直線にすべきでしょうか？

10 classification roc unbalanced-classes

2

Fメジャーは正確さと同義ですか？

fメジャー（精度と再現率に基づく）は、分類子の正確さの見積もりであることを理解しています。また、不均衡なデータセットがある場合、fメジャーは精度よりも優先されます。簡単な質問があります（これはテクノロジーよりも正しい用語を使用することについてです）。不均衡なデータセットがあり、実験でfメジャーを使用しています。機械学習/データマイニング会議用ではない論文を書こうとしています。したがって、このコンテキストでは、fメジャーを正確に同義で参照できますか。たとえば、f値が0.82の場合、分類子は82％の正確な予測を達成したと言えますか？

10 machine-learning classification data-mining unbalanced-classes accuracy

3

高い再現率-不均衡なデータセットの精度が低い

現在、サポートベクターマシンでツイートデータセットを分析しているときに問題が発生しています。問題は、バランスの取れていないバイナリクラストレーニングセット（5：2）があることです。これは実際のクラス分布に比例すると予想されます。予測すると、検証セットの少数派クラスの精度が低くなります（0.47）。再現率は0.88です。実際のクラス分布を反映するために検証セットも不均衡であるため、精度を向上させなかった（トレーニングセットで実行される）いくつかのオーバーサンプリングおよびアンダーサンプリングメソッドを使用しようとしました。また、サポートベクターマシンにさまざまなコストを実装しました。もうパフォーマンスが上がらないようです。私の想起を損なうことなく精度を向上させるために私ができることについて、何かアドバイスはありますか？さらに、なぜ私が偽陰性より陽性の方がはるかに多いのか誰かに手掛かりがありますか（陽性は少数派クラスです）？

10 machine-learning classification svm unbalanced-classes precision-recall

6

ロジスティック回帰はすべて1を予測し、0は予測しない

私は、ロジスティック回帰とランダムフォレストを使用して、ローンのデフォルトの確率を分析しています。私がロジスティック回帰を使用する場合、予測は常にすべて1です（これはローンが良いことを意味します）。私はこれを見たことがなく、問題を解決するためにどこから始めればよいかわかりません。60万行の22列があります。列の数を減らすと、ロジスティック回帰で同じ結果が得られます。なぜロジスティック回帰はそれほど間違っているのでしょうか？ **Actual from the data** 0 : 41932 1 : 573426 **Logistic regression output** prediction for 1 when actually 0: 41932 prediction for 1 when actually 1:573426 A**s you can see, it always predicts a 1** **Random forests does better:** actual 0, pred 0 : 38800 actual 1, …

10 regression logistic predictive-models unbalanced-classes scoring-rules

1

相互に排他的でないカテゴリを分類できる深層学習モデル

例：仕事の説明に「英国のJavaシニアエンジニア」という文があります。私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい：English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか？「編集」：従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます例：3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか？それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか？

9 machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty

1

カテゴリー変数を使用したオーバーサンプリング

データセットと2つのグループに分けられた約4000人の顧客のバランスをとるために、オーバーサンプリングとアンダーサンプリングの組み合わせを実行します。グループの1つは約15％の割合です。私はSMOTE（http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE）とROSE（http://cran.r-project.org/web/packages/ROSE/ ROSE.pdf）ですが、これらはどちらも既存の観測結果（kNNなど）を使用して新しい合成サンプルを作成します。ただし、顧客に関連付けられている属性の多くはカテゴリー的であるため、これが正しい方法だとは思いません。たとえば、Region_AやRegion_Bなどの多くの変数は相互に排他的ですが、kNNを使用すると、新しい観測値がRegion_AとRegion_Bの両方に配置される場合があります。これが問題であることに同意しますか？その場合-単に既存の観測を複製することによって、Rでオーバーサンプリングをどのように実行しますか？それともこれは間違った方法ですか？

9 unbalanced-classes resampling oversampling

1

RandomForest-sklearnの分類しきい値

1）sklearnのRandomForestで分類しきい値（デフォルトでは0.5だと思います）を変更するにはどうすればよいですか？ 2）sklearnでアンダーサンプリングするにはどうすればよいですか？ 3）RandomForest分類器から次の結果が得られました：[[1635 1297] [520 3624]] precision recall f1-score support class 0 0.76 0.56 0.64 2932 class 1 0.74 0.87 0.80 4144 平均/合計0.75 0.74 0.73 7076 最初に、データは不均衡です（クラス0から30％、クラス1から70％）。したがって、分類子はクラス1に偏っている可能性が高いと思います。つまり、一部をクラス0からクラス1に移動します（クラス0には1297の誤分類がありますが、クラス1には520の誤分類があります）。どうすれば修正できますか？ダウンサンプリングが役立つ場合？または分類しきい値を変更しますか？更新：クラス0は人口の40％、クラス1は60％です。ただし、クラス0からクラス1（1297）へのドリフトは高く、これは低くなります。

9 classification random-forest precision-recall unbalanced-classes

1

SMOTEはマルチクラスの不均衡問題に対してエラーをスローします

SMOTEを使用して、マルチクラス分類問題の不均衡を修正しようとしています。SMOTEは、SMOTEヘルプドキュメントのとおり、irisデータセットに対しては完全に機能しますが、同様のデータセットに対しては機能しません。これが私のデータの見え方です。値が1、2、3の3つのクラスがあることに注意してください。 > data looking risk every status 1 0 1 0 1 2 0 0 0 1 3 0 0 0 2 4 0 0 0 1 5 0 0 0 1 6 3 0 0 1 7 0 0 0 1 8 0 0 0 1 9 0 1 …

9 r classification unbalanced-classes oversampling

1

SVMで不均衡なマルチクラスデータセットを処理する最良の方法

かなり不均衡なデータにSVMを使用して予測モデルを構築しようとしています。私のラベル/出力には、ポジティブ、ニュートラル、ネガティブの3つのクラスがあります。ポジティブな例では、データの約10〜20％、ニュートラルでは約50〜60％、ネガティブでは約30〜40％になります。クラス間の誤った予測に関連するコストが同じではないため、クラスのバランスをとろうとしています。1つの方法は、トレーニングデータをリサンプリングし、元のデータセットよりも大きい、均等にバランスのとれたデータセットを作成することでした。興味深いことに、そうすると、他のクラスの予測が良くなる傾向があります（たとえば、データのバランスをとると、陽性クラスの例の数が増えましたが、サンプルの予測では、陰性クラスの方が優れていました）。誰もがこれが発生する理由を一般的に説明できますか？ネガティブクラスの例の数を増やすと、サンプルの予測外（たとえば、より良い予測）でポジティブクラスのようなものを取得できますか？また、誤った分類に異なるコストを課すか、LibSVMでクラスの重みを使用することによって、不均衡なデータに対処する方法に関する他の考えにも非常にオープンです（適切に選択/調整する方法はわかりません）。

9 machine-learning predictive-models svm unbalanced-classes

2

トレーニングデータは不均衡ですが、検証セットも同じですか？

10000の正の例と50000の負の例で構成されるデータにラベルを付け、合計60000の例を示しています。明らかに、このデータは不均衡です。ここで、検証セットを作成し、データの10％を使用して作成したいとします。私の質問は次のとおりです：検証セットが不均衡であることを確認する必要がありますか（トレーニングセットの真の分布への同意として）、または検証セットが均衡していることを確認する必要がありますか？したがって、たとえば、私の検証セットは、 10％の正の例+ 10％の負の例で、1000 +および5000-の例を示します。（この検証セットは、元のデータの不均衡を反映しています）。または、検証セットは、たとえば10％が正で1000+を与え、（10/5 = 2％）が負で1000-の例も与えられるようにすべきでしょうか？（テストセットについても同じ質問です）。不均衡なデータでトレーニングする方法については多くの方法があるようですが、私の検証セットが元の不均衡を反映すべきかどうかについてのベストプラクティスを見つけるための場所はどこにもありません。最後に、相互検証は行っていません。単一の検証セットとニューラルネットワークを使用します。ありがとう！

9 machine-learning neural-networks cross-validation dataset unbalanced-classes

2

機械学習では、クラス比率のバランスをとるか、母集団を代表するほうが良いですか？

機械学習のコンテキストで、実際の母集団のクラスのバランスが取れていないという問題があるとします。たとえば、クラスAは80％の確率で発生し、クラスBは20％の確率で発生します。そのような場合、一般的に、特定のMLアルゴリズムが同じ80/20クラス比率のデータ、またはバランスのとれた（50/50）比率のデータに依存する方が良いですか？a）トレーニングデータに関してb）テストデータに関してフォローアップの質問：（a）または（b）の答えが偶然50/50の比率で起こっている場合、この設定は一般に、アクセスするデータが存在する実際のコンテキストでも永続しますか？ 80/20比の？言い換えれば、トレーニングやテストにバランスのとれた比率を使用することの利点は、その比率を適用するコストを上回りますか（たとえば、多数派クラスからインスタンスを破棄するか、少数派クラスの新しい合成サンプルを生成することによって）？

9 machine-learning unbalanced-classes

1

不均衡なデータのアップサンプリングまたはダウンサンプリングは実際に効果的ですか？どうして？

不均衡なデータの分類を処理する方法として、データのアップサンプリングまたはダウンサンプリングについてよく耳にします。これは、（確率的またはスコアベースではなく）バイナリ分類器を使用してブラックボックスとして扱う場合に役立つ可能性があることを理解しているため、「ROC曲線上の位置を微調整する唯一の方法はサンプリングスキーム"（引用符で囲んでいるのは、分類子が本質的にバイナリの場合、実際のROC曲線がないためですが、偽陽性と偽陰性をトレードオフする同じ概念が依然として適用されます）。しかし、実際に何らかのスコアにアクセスして、後でしきい値を決定して決定を下す場合も、同じ理由が成り立たないようです。この場合、実際のROC分析などのより優れたツールを使用できる場合に、誤検出と誤検出の間の望ましいトレードオフについての見解を表現するための特別な方法ではありませんか？この場合、アップサンプリングまたはダウンサンプリングで各クラスの分類子の「前」を変更することを期待するのは変だと思われます（つまり、そのクラスになる無条件の確率、ベースライン予測）。分類子の「オッズ比」が変化すると予想します（分類子が共変量に基づいてベースライン予測をどの程度調整するか）。だから私の質問です：バイナリブラックボックスではない分類子がある場合、アップサンプリングまたはダウンサンプリングがしきい値を好みに合わせて調整するよりもはるかに優れた効果を期待する理由はありますか？それができない場合、合理的なパフォーマンスメトリック（たとえば、精度ではない）でのアップまたはダウンサンプリングのかなり大きな影響を示す経験的研究はありますか？

8 classification roc unbalanced-classes

2

King and Zeng（2001）に記載されているまれなイベントの修正方法

バイナリ（生存）応答変数と3つの説明変数（A= 3レベル、B= 3レベル、C= 6レベル）のデータセットがあります。このデータセットでは、データはバランスが取れており、ABCカテゴリごとに100人の個人がいます。これらの、、および変数の影響についてAはB、Cこのデータセットですでに調査しました。それらの効果は重要です。サブセットがあります。各ABCカテゴリでは、100人のうち25人のうち、およそ半分が生存しており、半分が死亡しています（12人未満が生存または死亡している場合、その数は他のカテゴリで完了していますD）。第4変数についてさらに調査されました（）。ここに3つの問題があります。 KingとZeng（2001）で説明されているまれなイベントの修正を考慮して、およそ50％から50％が大きなサンプルの0/1比率に等しくないことを考慮して、データに重みを付ける必要があります。この0と1のランダムでないサンプリングは、個人が各ABCカテゴリーでサンプリングされる確率が異なるため、大きなサンプルではグローバルな比率0/1ではなく、各カテゴリーの真の比率を使用する必要があると思います。この4番目の変数には4つのレベルがあり、データは実際にはこれらの4つのレベルでバランスが取れていません（データの90％はこれらのレベルの1つ、たとえばlevel内にありますD2）。 King and Zeng（2001）の論文と、King and Zeng（2001）の論文に導いたこのCVの質問と、後でパッケージを試すように導いたこの別の質問logistf（私はRを使用）を注意深く読みました。King and Zheng（2001）から理解したことを適用しようとしましたが、私がしたことが正しいかどうかはわかりません。私は2つの方法があることを理解しました：以前の修正方法については、切片のみを修正することを理解しました。私の場合、切片はA1B1C1カテゴリであり、このカテゴリの生存率は100％であるため、大きなデータセットとサブセットの生存率は同じであり、したがって、修正による変化はありません。とにかく、この方法は私には当てはまらないのではないかと思います。私は全体として真の比率ではなく、各カテゴリの比率を持っているからです。この方法はそれを無視します。重み付け方法：w iを計算し、論文で理解したことから：「研究者が行う必要があるのは、式（8）でw iを計算し、それをコンピュータープログラムで重みとして選択して実行することです。ロジットモデル」。だから私は最初に自分glmを走らせました： glm(R~ A+B+C+D, weights=wi, data=subdata, family=binomial) 私は含めるべきであることを確認していないA、BとC私は通常、このサブサンプルの生存に影響を与えないためにそれらを期待しているので（各カテゴリには50％の生死については含まれています）、説明変数として。とにかく、重要でない場合は、出力を大きく変更しないでください。この修正により、私はレベルD2（ほとんどの個人のレベル）によく適合しますが、他のレベルD（D2優勢）にはまったく適合しません。右上のグラフを参照してください。重み付けされていないglmモデルとw iでglm重み付けされたモデルの近似。各ドットは1つのカテゴリを表します。は、大きなデータセットのカテゴリの1の真の比率であり、サブデータセットのカテゴリの1の真の比率であり、サブデータセットに適合したモデルの予測です。各記号は、所定のレベルのを表します。三角形は水平です。Proportion in the big datasetABCProportion in the sub datasetABCModel predictionsglmpchDD2 後にが表示されたときにのみlogistf、これはおそらくそれほど単純ではありませんが。今はよくわかりません。を実行するlogistf(R~ A+B+C+D, weights=wi, data=subdata, family=binomial)と、推定値が得られますが、予測関数が機能せず、デフォルトのモデルテストは無限のカイ二乗値（1を除く）とすべてのp値= 0（1を除く）を返します。質問： KingとZeng（2001）を正しく理解しましたか？（私はそれを理解するのにどれくらい遠いですか？）私にglmフィット、A、B、とC有意な効果を持っています。これはすべて、サブセットで0と1の半分/半分の比率からさまざまな方法でさまざまに解析するABCということです。そうではありませんか？タウの値と値を持っているという事実にもかかわらず、キングとゼンの（2001）の重み付け補正を適用できますか？ y¯y¯\bar yABCグローバル値の代わりに各カテゴリについて？ D変数のバランスが非常に悪いのは問題ですか？バランスが取れていない場合、どうすればそれを処理できますか？（考慮に入れると、まれなイベントの修正のためにすでに重み付けする必要があります...「二重重み付け」、つまり重み付けを可能にすることは可能ですか？）ありがとうございます！編集：モデルからA、B、Cを削除するとどうなるかを確認します。なぜそんな違いがあるのかわかりません。 …

8 logistic unbalanced-classes weighted-regression rare-events case-control-study

2

t検定（または順列検定）では、標本サイズの大きな違いと分散の違いが重要ですか？

私の頭の中では非常に混乱する質問があります。データがあり、男性と女性の数値スコアを比較したい。これらの2つのグループには大きな違いがあります。男性の数は34で、女性の数は310で、分散は等しくありません。私の知る限り、分散が等しくない場合は、ウェルチ・サッタースウェイト方程式を使用できます（分散が等しくないと仮定した独立t検定）。私の質問は、2つのサンプル間でサンプルサイズに本当に大きな違いがあるにもかかわらず、この方程式を使用できますか？または、2つのサンプル間のサンプルサイズの違いに特定の制限はありますか？

8 t-test sample-size unbalanced-classes permutation-test

1

SVMクラスの重みの事前選択

不均衡なデータを持つマルチクラスSVMでは、（X検証ではなく）トレーニングデータからクラスの重みを決定する方法があったことをどこかで見たり読んだりしたことを覚えています。誰がその方法が何であるか、またはどの紙からのものか知っていますか？ありがとう

8 machine-learning svm unbalanced-classes

タグ付けされた質問 「unbalanced-classes」

タグ付けされた質問「unbalanced-classes」