ロジスティック回帰における高度に歪んだデータセットの重みの追加


9

入力変数をバイナリ出力変数に合わせるために、標準バージョンのロジスティック回帰を使用しています。

しかし、私の問題では、負の出力(0)が正の出力(1)をはるかに上回ります。比率は20:1です。そのため、分類子をトレーニングすると、正の出力の可能性を強く示唆する機能でも、対応するパラメーターの値が非常に低い(非常に負の)ようです。これは、パラメーターをその方向に引っ張っている否定的な例が多すぎるために発生しているようです。

だから私は私が肯定的な例に重みを追加できるかどうか疑問に思っています(たとえば1ではなく20を使用して)。これはまったくメリットがありますか?もしそうなら、私はどのように重みを追加するべきですか(以下の方程式で)。

次のようなコスト関数ルックス

J=(1/m)i=1mylog(h(xθ))+(1y)(1log(h(xθ)))

このコスト関数(WRTの勾配)次のとおりです。θ

grad=((h(xθ)y)X)

ここで、 =テストケースの数、x =特徴行列、y =出力ベクトル、h =シグモイド関数、θ =学習しようとしているパラメーター。mxyhθ

最後に、可能な限り低いを見つけるために勾配降下法を実行します。実装は正しく実行されているようです。J


こんにちは、私はあなたが説明したのとまったく同じ問題を抱えています。私のデータでは、多くの例が否定的で肯定的なものはほとんどありません。私にとっては、いくつかの否定的要素を誤って分類することを意味する場合でも、肯定的要素を正しく分類することがより重要です。同じコスト関数と勾配方程式を使用しているため、私もあなたと同じ方法を適用しているようです。これまでにいくつかのテストを実行し、次の結果を得ました。- 7つのパラメーターを使用してトレーニングサンプルサイズ:225000テストサンプルサイズ:75000結果:92%の精度。ただし、陽性の場合は11% w
Cartz

1
あなたがしていることは、損失関数を最尤で混乱させることです。重み付けされていないmleは、推論の観点から「正しいこと」を行っており、各共変量仕様の結果がどれほどまれであるかを反映しています。また、分離することもできます。これは、トレーニングデータの応答を完全に予測できる特定の共変量のセットが発生するためです。これにより、大きな負の値が発生します。
確率論的

2
分類は良い目標ではなく、ロジスティック回帰が開発された方法でもありません。ここにリストされているすべての問題を引き起こすのは分類の概念です。予測された確率と適切な精度のスコアルールに固執する
フランクハレル2014

1
@arahantそれは部分的にだけ本当です。ロジットリンクを使用したバイナリロジスティック回帰は、共変量の係数がMLEであり、これらの変数がクラス0と比較してクラス1のオッズに及ぼす影響を反映するという点で引き続き有効です。ただし、ケースコントロール設計では、切片はクラス1とクラス0の比率を反映するように常に固定されており、切片項を調整して、たとえば誤分類のコスト関数やその他のプロセスに沿ってクラスを割り当てることは完全に有効です。これは係数を変更しないためです。変数について。
Sycorax氏は、モニカ

1
カットオフが必要である/望まれている/望ましいという考えはどこで誰が得ましたか?
フランクハレル2014

回答:


8

Y


フランク、「15回...」の詳細をサポートするリファレンスや何かはありますか?他の一部の研究者が開発したROCメソッドの代わりにロジスティック回帰を使用しているいくつかのデータで、同様の不均衡があります。最近、小さなサンプルバイアスに遭遇し、コード/パッケージにフィッティングオプションとしてFirthのバイアス低減のオプションを追加しました。私がこれをジャーナルのために書いているので、このような経験則に沿って引用するものがあると便利です。参照があなたのRMSブックである場合は申し訳ありませんが、それは私の棚に置かれていますが、まだそこを見ていません。
Gavin Simpson

小標本バイアスとファースペナルティの値に関する論文があります。便利なものはありません。15:1に関しては、biostat.mc.vanderbilt.edu / wiki / pub / Main / FrankHarrell /…を
フランクハレル

ありがとう、フランク-15:1の問題は私が一番気になっていたものでした。少サンプルのバイアスとファースの方法に関する出版物はいくつかありますが、最終的に手渡しするものがあれば、それが何であるかを教えていただければ幸いです。
Gavin Simpson

3
念のため、私が最初に書いたように、他の誰かが上記を読み間違えるべきです。問題の20:1は、否定的観測と肯定的観測の比率です。フランク・ハレルの回答の15:1は別のことです。候補の独立変数に対する肯定的な観測の比率。
アダムベイリー

極端な分布は、特にカテゴリカル予測子がある場合、準完全分離の可能性を高めることによって問題を提示します。ペナルティはここでも役立ちます。
確率論的

3

このような場合、多くの場合、この非対称性を捉えることができるロジスティックリンクではなく、柔軟なリンクを使用することをお勧めします。たとえば、skew-normal、GEVsinh-arcsinh、およびその中の参照。他にもたくさんありますが、2つ以上のリンクを投稿することはできません。


他のリンク機能の説明はありますか?
DW
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.