生成的対差別的


153

生成は「P(x,y)基づいて」を意味し、識別は「P(y|x)に基づいて」を意味することを知っていますが、いくつかの点で混乱しています:

  • ウィキペディア(およびWeb上の他の多くのヒット)では、SVMや意思決定ツリーなどを差別的なものとして分類しています。しかし、これらには確率的な解釈すらありません。ここでの差別とはどういう意味ですか?差別的というのは、生成的ではない何かを意味するようになったのでしょうか?

  • Naive Bayes(NB)はP(x|y)およびをキャプチャするため生成的P(y)であり、したがってP(x,y)(およびP(y|x))があります。同様の方法で単純に計算することで、ロジスティック回帰(判別モデルのポスターボーイ)を「生成」するのは簡単ではありませんP x = P x 0P(x)P(x)=P(x0)P(x1)...P(xd) MLEP(xi)は単なる周波数です)?

  • 識別モデルは生成モデルよりも性能が優れている傾向があることは知っています。生成モデルを使用する実用的な用途は何ですか?データを生成/シミュレートできることが挙げられますが、これはいつ発表されますか?個人的には、回帰、分類、コラボの経験しかありません。構造化データをフィルタリングするので、ここでの使用は私とは無関係ですか?「失われたデータ」引数(P(xi|y)不足しているためxi)学習データのみで、あなたにエッジを与えるように思われる(あなたが実際に知っているときyとオーバー過小評価する必要はありませんP(y)取得します比較的愚かなP(xi)とにかく直接推定することができます)、それでも代入ははるかに柔軟です(だけでyなく他のも基づいて予測できxiます)。

  • ウィキペディアからの完全に矛盾した引用とは何ですか?「生成モデルは通常、複雑な学習タスクで依存関係を表現する際に識別モデルよりも柔軟性が高い」対「識別モデルは一般に、観測変数とターゲット変数の間のより複雑な関係を表現できる」

これについて考えさせられた関連質問


5
P(y|x)P(y|x)P(x,y)P(y|x)P(y|x)

2
SVMに関するあなたの声明は真実ではないと思います。「しかし、これらには確率論的な解釈すらありません。」損失関数を持つものは、適切なPDFのMAP構成を見つけることにより、確率論的な意味で明確に解釈できます。
-gmatt

回答:


135

判別モデルと生成モデルの基本的な違いは次のとおりです。

  • 判別モデルは、クラス間の(ハードまたはソフト)境界を学習します
  • 生成モデルは個々のクラスの分布モデル化します

直接の質問に答えるには:

  • SVMとデシジョンツリーは、クラス間の明示的な境界を学習するため、差別的です。SVMは最大マージン分類器です。つまり、カーネルが与えられると、2つのクラスのサンプル間の距離を最大化する決定境界を学習します。サンプルと学習した決定境界との間の距離を使用して、SVMを「ソフト」分類器にすることができます。DTは、情報ゲイン(または別の基準)を最大化する方法で空間を再帰的に分割することにより、決定境界を学習します。

  • この方法で、ロジスティック回帰の生成形式を作成することができます。ただし、完全な生成モデルを使用して分類を決定するわけではないことに注意してください。

  • アプリケーションに応じて、生成モデルが提供する多くの利点があります。オンラインテストデータがトレーニングデータとは異なる基礎となる分布によって生成される非定常分布を扱っているとします。特にオンライン更新を監視する必要がない場合、SVMの決定境界に対してこれを行うよりも、分布の変化を検出し、それに応じて生成モデルを更新する方が一般的に簡単です。判別モデルも一般に異常値検出では機能しませんが、一般に生成モデルは機能します。もちろん、特定のアプリケーションに最適なものは、アプリケーションに基づいて評価する必要があります。

  • (この引用は複雑ですが、これが言いたいことです)生成モデルは通常、確率的グラフィカルモデルとして指定され、データセット内の独立関係の豊富な表現を提供します。判別モデルは、データセット内のフィーチャとクラス間の関係のそのような明確な表現を提供しません。リソースを使用して各クラスを完全にモデル化する代わりに、クラス間の境界を豊富にモデル化することに重点を置いています。同じ容量(たとえば、モデルを実行するコンピュータープログラムのビット)が与えられると、判別モデルは、生成モデルよりもこの境界のより複雑な表現を生成する可能性があります。


些細なコメント:クラスター間の境界は、が増加するにつれてプロット/理解/測定がますます難しくなります。したがって、たとえば、判別モデルと見なされるkクラスタリングは、ノイズが多く、アドホックになります。(例:ドイツの2党制と5党制の政治を比較する)。(k2)kk
デニス

63

(ハムナーの答えは素晴らしいので、完全性のためにMetaOptimizeから私の答えをクロスポストしてください。)

私が提供するものとして生成的アルゴリズムを考え、実際にデータが生成される方法のモデルを(私はあなたの両方のモデルを与えると考えるし、というのよりも、、私はそれは同等だと思います)、そして単に分類分割を提供するような(そして必ずしも確率的な方法でではない)判別アルゴリズム。P(X|Y)P(Y)P(X,Y)

たとえば、ガウス混合モデルとk平均クラスタリングを比較します。前者には、ポイントの生成方法に関する優れた確率モデルがあります(ある程度の確率でコンポーネントを選択し、コンポーネントのガウス分布からサンプリングすることでポイントを出力します)が、後者について実際に言えることはありません。

あなたが得ることができるので、生成的アルゴリズムは、弁別特性を有していることに注意してくださいあなたが持っている一度と差別的アルゴリズムは、実際に生成的な性質を持っていないものの、(ベイズの定理によって)。P(Y|X)P(X|Y)P(Y)

1:判別アルゴリズムを使用すると、ポイントが実際に生成される方法のモデルを提供することなく、ポイントを分類できます。したがって、これらは次のいずれかです。

  • 確率的アルゴリズムはを学習しようとします(例、ロジスティック回帰)。P(Y|X)
  • または、ポイントからクラスへのマッピングを直接学習しようとする非確率的アルゴリズム(たとえば、パーセプトロンとSVMは単純に分離した超平面を提供しますが、新しいポイントを生成するモデルは提供しません)。

そのため、はい、識別分類子は生成的でない分類子です。

これについてのもう1つの考え方は、生成アルゴリズムモデルに対して何らかの構造の仮定を行うが、判別アルゴリズムは仮定を少なくするというものです。たとえば、Naive Bayesはフィーチャの条件付き独立性を前提としていますが、ロジスティック回帰(Naive Bayesの識別「カウンターパート」)はそうではありません。

2:はい、Naive Bayesはおよびキャプチャするため生成的です。たとえば、およびわかっている場合、英語とフランス語の単語の確率とともに、最初にドキュメントの言語を選択して新しいドキュメントを生成できます(確率0.7の英語、確率0.3のフランス語)、選択した言語の単語確率に従って単語を生成します。P(X|Y)P(Y)P(Y=English)=0.7P(Y=French)=0.3

はい、そのような方法でロジスティック回帰を生成できると思いますが、それはロジスティック回帰にまだ存在しないものを追加しているからです。つまり、単純ベイズ分類を実行している場合、(右側の用語、およびは、新しいドキュメントを生成できるようにするものです); しかし、ロジスティック回帰でを計算するときは、これら2つのことを計算するのではなく、ロジスティック関数をドット積に適用するだけです。P(Y|X)P(X|Y)P(Y)P(X|Y)P(Y)P(Y|X)

3:ジェネレーティブモデルは多くの場合、小さいデータセットの判別モデルよりも優れています。なぜなら、ジェネレーティブな仮定は、過剰適合を防ぐ構造をモデルに配置するからです。たとえば、単純ベイズ対ロジスティック回帰を考えてみましょう。もちろん、単純ベイズの仮定が満たされることはめったにないため、ロジスティック回帰は、単純ベイズではできない依存関係をキャプチャできるため、データセットが大きくなるにつれて単純ベイズを上回る傾向があります。ただし、データセットが小さい場合、実際には存在しない偽のパターンでロジスティック回帰が検出される可能性があるため、Naive Bayesはモデルの一種の正規化子として機能し、過剰適合を防ぎます。Andrew NgとMichael Jordanによる、判別分類器と生成分類器に関する論文があります。

4:それは、モデルを正しく指定し、モデルが実際に保持されている場合、生成モデルはデータの基本構造を実際に学習できるが、生成的仮定が満たされていない場合、識別モデルがパフォーマンスを上回る可能性があることを意味すると思います(識別アルゴリズムは特定の構造にあまり縛られておらず、現実世界は乱雑であり、とにかく仮定が完全に満たされることはめったにありません。(混乱を招く場合は、おそらくこれらの引用符を無視してください。)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.