クラスの確率を予測する機械学習

20

例が2つのクラスのいずれかに属する確率を出力する分類子を探しています。

ロジスティック回帰と単純ベイズを知っていますが、同様の方法で機能する他の製品について教えてください。つまり、例が属するクラスではなく、例が特定のクラスに適合する確率を予測する分類子ですか？

これらのさまざまな分類器の長所と短所（ロジスティック回帰と単純ベイズを含む）について共有できる考えのボーナスポイント。たとえば、マルチクラス分類の方が良いでしょうか？

5

SVMはロジスティック回帰と密接に関連しており、超平面までの距離（各ポイントのスコア）に基づいて確率を予測するために使用できます。これを行うには、スコア->確率マッピングを何らかの方法で行います。問題は1次元なので比較的簡単です。1つの方法は、S曲線（ロジスティック曲線、またはその勾配）をデータに適合させることです。別の方法は、等張回帰を使用して、より一般的な累積分布関数をデータに適合させることです。

SVM以外に、ディープネットワークなどの勾配ベースの方法を使用して適合できる任意の方法に適した損失関数を使用できます。

最近の分類器の設計では、確率の予測は考慮されていません。これは、分類のパフォーマンスを妨げる余分なものなので、破棄されます。ただし、任意のバイナリ分類器を使用して、「ラングフォードとザドロズニーの「調査」削減。

— ラウリ
ソース

4

「分類器を設計するとき、最近では確率の予測は考慮されていません」。これは2013年に本当だった場合、私はわからないんだけど、それは2018年にほぼ確実に偽だ

— マシュードゥルーリー

9

別の可能性は、シグモイド出力ユニットでコスト関数としてクロスエントロピーを使用する場合のニューラルネットワークです。それはあなたが探している推定値を提供します。

ニューラルネットワークはロジスティック回帰と同様に判別分類器であり、トレーニングデータの条件付き分布を最大化しようとします。漸近的に、無限サンプルの制限では、両方の推定値が同じ制限に近づきます。

この質問の詳細な分析をこの論文で見つけるでしょう。テイクアウトのアイデアは、生成モデルの方が漸近誤差が大きくても、判別モデルよりもはるかに速くこの漸近誤差に近づく可能性があるということです。したがって、どちらを選択するかは、問題、手元のデータ、および特定の要件によって異なります。

最後に、条件付き確率の推定値を、決定の基礎となる絶対的なスコアとして考えることは（もしそれがあなたの目標であれば）、一般的にはあまり意味がありません。重要なのは、具体的なサンプルが与えられた場合、分類器が出力する最適な候補クラスを検討し、関連する確率を比較することです。最高の2つのスコアの差が大きい場合、分類器は自分の答えに非常に自信があることを意味します（必ずしも正しいとは限りません）。

— jpmuc
ソース

2

たくさんあります-そして、最もうまくいくのはデータに依存します。チートする方法も数多くあります。たとえば、スコアの類似性を与える分類器の出力（つまり、重みベクトルと入力の間の内積）に対して確率キャリブレーションを実行できます。この最も一般的な例は、Plattのスケーリングと呼ばれます。

基礎となるモデルの形状の問題もあります。データと多項式の相互作用がある場合、バニラロジスティック回帰ではうまくモデル化できません。ただし、モデルがデータによりよく適合するように、カーネルバージョンのロジスティック回帰を使用することもできます。これにより、分類器の精度も向上するため、通常、確率出力の「良さ」が向上します。

一般に、確率を与えるほとんどのモデルは通常ロジスティック関数を使用しているため、比較するのは困難です。それは実際にはうまく機能する傾向があり、ベイジアンネットワークが代替です。Naive Bayesは、その確率が良いものであると単純すぎると仮定しすぎており、合理的なサイズのデータセットで容易に観察されます。

最終的には、通常、データをより適切に表現できるモデルを選択することで、確率推定の品質を向上させるのが簡単になります。この意味では、どのように確率を得るかは重要ではありません。ロジスティック回帰で70％の精度、SVMで98％の精度が得られる場合、「完全な信頼」の確率だけを与えると、実際の確率ではなくても、ほとんどのスコアリング方法で「より良い」結果が得られます（そしてその後、前に説明したキャリブレーションを実行して、実際に改善することができます）。

正確な分類器を取得できないという文脈での同じ質問はより興味深いものですが、そのようなシナリオで誰が研究/比較したかはわかりません。

— ラフ・エドワード
ソース