序文:カットオフを使用するかどうかのメリット、またはカットオフを選択する方法については気にしません。私の質問は純粋に数学的で、好奇心によるものです。
ロジスティック回帰は、クラスAとクラスBの事後条件付き確率をモデル化し、事後条件付き確率が等しい超平面に適合します。したがって、理論的には、0.5の分類ポイントは、事後確率をモデル化するため(一貫して同じクラス比に遭遇すると仮定)、セットバランスに関係なく合計誤差を最小化することを理解しました。
私の実際の例では、分類カットオフとしてP> 0.5を使用すると非常に低い精度(約51%の精度)が得られます。ただし、AUCを見ると0.99を超えています。そのため、いくつかの異なるカットオフ値を調べたところ、P> 0.6で98%の精度(小さいクラスで90%、大きいクラスで99%)が得られました。
クラスは非常に不均衡であり(1:9)、高次元の問題です。ただし、クラスを各交差検定セットに均等に割り当てたため、モデルの適合と予測の間でクラスのバランスに違いが生じないようにしました。また、モデルの適合と予測で同じデータを使用してみましたが、同じ問題が発生しました。
0.5がエラーを最小化しない理由に興味があります。クロスエントロピー損失を最小化することでモデルが適合している場合、これは設計によるものだと考えました。
なぜこれが起こるのかについてのフィードバックはありますか?それは罰則の追加によるものですか、もしそうなら、誰かが何が起こっているのか説明できますか?