以前のクラスの確率分布をロジスティック回帰に組み込む


9

ロジスティック回帰やランダムフォレストなどの分類器に事前クラス確率分布を組み込む方法についての記事や講義が見つからないことに驚いています。


だから私の質問は:

以前のクラスの確率分布をロジスティック回帰またはランダムフォレストに組み込むにはどうすればよいですか?

以前のクラス確率分布を組み込むことは、ベイジアン機械を使用する必要があることを意味しますか?


私はクラスaがクラスbよりもはるかに可能性が高いことを知っている分類タスクに直面しています。

アドホックな解決策は、クラスAのサンプルをトレーニングセットに含めるだけですが、これに関する理論的な結果はありますか?

私が考えたのは、決定しきい値を0.5からこの以前の不均衡を考慮した値に変更することでした。しかし、それが理論的に理にかなっているのかどうかさえわかりません。決定を下す準​​備ができた時点で、すでにすべての特徴値を調べているため、事前確率ではなくクラスの条件付き確率を気にする必要があるためです。

回答:


5

YXf

P(Y=1X=x)P(Y=0X=x)=P(Y=1)fXY=1(x)P(Y=0)fXY=0(x)

など

log(P(Y=1X=x)P(Y=0X=x))=log(P(Y=1)P(Y=0))+log(fXY=1(x)fXY=0(x)).

{Y=1}


3

ランダムフォレストの場合、デフォルトの事前分布は、トレーニングセットの経験的なクラス分布です。トレーニングセットのクラス分布が新しいテストの観測と一致しない場合は、これを事前に調整します。事前分布は、層別化/ダウンサンプリングまたはclass_weightsによって調整できます。

層別化/ダウンサンプリングは、一部の観測が破棄されていることを意味するのではなく、少数のルートノードにブートストラップされるだけです。

事前調整に加えて、ランダムフォレストモデルから確率的予測を取得し、確実性のしきい値を選択することもできます。

実際には、層別化による事前調整と、最高のパフォーマンスのソリューションとして最高のしきい値を選択することの組み合わせが見つかります。ROCプロットを使用して、しきい値を決定します。class_weightsを調整すると、同様のパフォーマンスが得られる可能性が高くなりますが、透過性が低下し、効果的な事前計算が実現します。層別化の場合、層別化の比率は単に新しい事前値です。

詳細については、この回答も参照してください

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.