入力変数をバイナリ出力変数に合わせるために、標準バージョンのロジスティック回帰を使用しています。
しかし、私の問題では、負の出力(0)が正の出力(1)をはるかに上回ります。比率は20:1です。そのため、分類子をトレーニングすると、正の出力の可能性を強く示唆する機能でも、対応するパラメーターの値が非常に低い(非常に負の)ようです。これは、パラメーターをその方向に引っ張っている否定的な例が多すぎるために発生しているようです。
だから私は私が肯定的な例に重みを追加できるかどうか疑問に思っています(たとえば1ではなく20を使用して)。これはまったくメリットがありますか?もしそうなら、私はどのように重みを追加するべきですか(以下の方程式で)。
次のようなコスト関数ルックス
このコスト関数(WRTの勾配)次のとおりです。
ここで、 =テストケースの数、x =特徴行列、y =出力ベクトル、h =シグモイド関数、θ =学習しようとしているパラメーター。
最後に、可能な限り低いを見つけるために勾配降下法を実行します。実装は正しく実行されているようです。
こんにちは、私はあなたが説明したのとまったく同じ問題を抱えています。私のデータでは、多くの例が否定的で肯定的なものはほとんどありません。私にとっては、いくつかの否定的要素を誤って分類することを意味する場合でも、肯定的要素を正しく分類することがより重要です。同じコスト関数と勾配方程式を使用しているため、私もあなたと同じ方法を適用しているようです。これまでにいくつかのテストを実行し、次の結果を得ました。- 7つのパラメーターを使用して、トレーニングサンプルサイズ:225000、テストサンプルサイズ:75000結果:92%の精度。ただし、陽性の場合は11% w
—
Cartz
あなたがしていることは、損失関数を最尤で混乱させることです。重み付けされていないmleは、推論の観点から「正しいこと」を行っており、各共変量仕様の結果がどれほどまれであるかを反映しています。また、分離することもできます。これは、トレーニングデータの応答を完全に予測できる特定の共変量のセットが発生するためです。これにより、大きな負の値が発生します。
—
確率論的
分類は良い目標ではなく、ロジスティック回帰が開発された方法でもありません。ここにリストされているすべての問題を引き起こすのは分類の概念です。予測された確率と適切な精度のスコアルールに固執する
—
フランクハレル2014
@arahantそれは部分的にだけ本当です。ロジットリンクを使用したバイナリロジスティック回帰は、共変量の係数がMLEであり、これらの変数がクラス0と比較してクラス1のオッズに及ぼす影響を反映するという点で引き続き有効です。ただし、ケースコントロール設計では、切片はクラス1とクラス0の比率を反映するように常に固定されており、切片項を調整して、たとえば誤分類のコスト関数やその他のプロセスに沿ってクラスを割り当てることは完全に有効です。これは係数を変更しないためです。変数について。
—
Sycorax氏は、モニカ
カットオフが必要である/望まれている/望ましいという考えはどこで誰が得ましたか?
—
フランクハレル2014