判別分析の3つのバージョン:違いとその使用方法


26

誰もが違いを説明し、これらの3つの分析を使用する方法を特定の例を与えることができますか?

  • LDA-線形判別分析
  • FDA-フィッシャーの判別分析
  • QDA-二次判別分析

私はどこでも検索しましたが、実際の値のない実際の例を見つけることはできませんでした。これらの分析がどのように使用され、計算されるかを確認できませんでした。私が理解しようとしたとき、どの方程式/式がLDAに属し、どの方程式/ FDAに属するかを区別するのは困難でした。

たとえば、そのようなデータがあるとしましょう:

x1 x2 class
1  2  a
1  3  a
2  3  a
3  3  a
1  0  b
2  1  b
2  2  b

そして、いくつかのテストデータを考えてみましょう:

x1 x2
2  4
3  5
3  6

では、これら3つのアプローチすべてでこのようなデータを使用する方法は?背後ですべてを計算する数学パッケージを使用するのではなく、すべてを手動で計算する方法を確認することをお勧めします。

:PS私はこのチュートリアル見つけhttp://people.revoledu.com/kardi/tutorial/LDA/LDA.html#LDAを。LDAの使用方法を示します。

回答:


23

「フィッシャーの判別分析」は、2クラスの状況でのLDAです。2つのクラスしかない場合、手作業による計算が可能であり、分析は重回帰に直接関連しています。LDAは、任意の数のクラスの状況に関するフィッシャーのアイデアを直接拡張したものであり、行列代数デバイス(固有分解など)を使用して計算します。したがって、「フィッシャーの判別分析」という用語は、今日では時代遅れとみなすことができます。代わりに「線形判別分析」を使用する必要があります。も参照してください。2+クラス(マルチクラス)を使用した判別分析は、アルゴリズムによって標準的です(標準的な変量として判別式を抽出します)。まれな用語「正準判別分析」

フィッシャーは、判別関数が計算された後、「フィッシャー分類関数」と呼ばれるものを使用してオブジェクトを分類しました。今日では、より一般的なベイズのアプローチがLDAプロシージャ内で使用されてオブジェクトを分類しています。

LDAの説明のリクエストに対して、LDAでの抽出 LDAでの分類関連する手順の中でLDAを。また、これこれこの質問と回答。

ANOVAが等分散の仮定を必要とするように、LDAはクラスの等分散共分散行列(入力変数間)の仮定を必要とします。この仮定は、分析の分類段階にとって重要です。行列が大幅に異なる場合、観測値は変動性が大きいクラスに割り当てられる傾向があります。この問題を克服するために、QDAが発明されました。QDAは、上記のクラスの共分散行列の不均一性を考慮したLDAの修正版です。

(BoxのMテストなどで検出された)異質性があり、QDAが手元にない場合でも、分類での判別因子の(プールされた行列ではなく)個々の共分散行列を使用するレジームでLDAを使用できます。これは部分的に問題を解決しますが、QDAほど効果的ではありませんが、先ほど指摘したように、これらは判別変数間の行列であり、元の変数(行列が異なる)の間ではありません。

サンプルデータの分析はご自身で行ってください。


@zyxueの回答とコメントに返信する

LDAは、FDAがあなたの答えに定義したものです。LDA最初に分離の範囲内を最大化する線形構造(判別式と呼ばれる)を抽出し、次にそれらを使用して(ガウス)分類を実行します。(おっしゃるように)LDAが判別式を抽出するタスクと結び付けられていない場合、LDAは単なるガウス分類器のように見えますが、「LDA」という名前はまったく必要ありません。

SwSws同じクラス内共分散がすべて同一である同一性。それらを使用する権利は絶対になります。)

ガウス分類器(LDAの第2段階)は、ベイズ規則を使用して、判別分析によってクラスに観測値を割り当てます。同じ結果は、元の特徴を直接利用するいわゆるフィッシャー線形分類関数を介して達成できます。ただし、判別に基づくベイズのアプローチは、プールされたものを使用するデフォルトの方法に加えて、別個のクラス判別共分散行列も使用できるという点で、少し一般的です。また、判別式のサブセットに基づいて分類を行うことができます。

クラスが2つしかない場合、「潜伏抽出」と「観測分類」が同じタスクに還元されるため、LDAの両方の段階を1つのパスで一緒に記述することができます。


機械学習コースでガウス2クラスLDAがガウス密度を想定し、ベイジアンMPEルールを使用するのに対し、フィッシャーのLDAはガウス仮定を行わず、SNRを最大化する最適性基準を変更したことを覚えていると思います。これはあなたの答えと一致していますか?
オースティン

1
@Jakeもこれに興味があり、この答え:stats.stackexchange.com/questions/87975/…で、結果は同じであると述べられています。コメント?
ドール

「「フィッシャーの判別分析」は、2クラスの状況でのLDAにすぎません」
zyxue

@ zyxue、95%確かですが、とにかく私はこの用語は時代遅れだと思います。stats.stackexchange.com/q/190806/3277の脚注をご覧ください。
ttnphns

@ ttnphns、fyi、youtu.be / hGKt0yy9q_E?t = 3010によると、FDAとLDAはしばしば文献で混同されます。2つを区別する1つの方法として、FDAは特徴抽出方法であり、LDAとQDAは分類手法です。
zyxue

1

@ttnphnsが示唆したように、FDAが2クラスのLDAであることに同意するのは難しいと思います。

Ali Ghodsi教授によるこのトピックに関する非常に有益で美しい2つの講義をお勧めします。

  1. LDAおよびQDA。さらに、書籍The Elements of Statistics Learningpdf)の108ページには、講義と一致するLDAの説明があります。
  2. FDA

私にとっては、LDAとQDAはどちらもガウスの仮定による分類手法であるため似ています。2つの主な違いは、LDAは両方のクラスの特徴共分散行列が同じであると仮定しているため、線形判定境界が生じることです。対照的に、QDAはそれほど厳密ではなく、クラスごとに異なる特徴共分散行列を使用できるため、二次決定境界になります。2次決定境界がどのように見えるかについては、scikit-learnの次の図を参照してください。

サブプロットに関するいくつかのコメント

  • 一番上の行:データの共分散行列が実際に同じ場合、LDAとQDAは同じ決定境界になります。
  • 最下行:共分散行列が異なる場合、LDAは仮定が無効になるためパフォーマンスが低下しますが、QDAははるかに優れた分類を実行します。

一方、FDAは非常に異なる種であり、ガウスの仮定とは関係ありません。FDAが試みていることは、クラス内分散を最小化しながらクラス間の平均距離を最大化する線形変換見つけることです。2回目の講義では、この考えを美しく説明します。LDA / QDAとは対照的に、FDAは分類を行いませんが、FDAによって検出された変換後に得られた機能は、LDA / QDA、SVMなどを使用して分類に使用できます。


2
私の答えにあなたの答えへの私の返信をご覧ください。私はあなたがリンクしているビデオレッスンを見ていませんので、同意できるかどうかは言えません。あなたが答えで与えている(LDA対FDAの)解釈/定義に同意しません。しかし、それは-2つの用語の定義-私にとって非常に重要なトピックではありません。すべてがどのように機能するかを理解することがより重要です。
ttnphns

2
あなたの理解なら、FDA doesn't do classification, although the features obtained after transformation found by FDA could be used for classificationそれは私が「LDAの抽出段階」と呼ぶものであると言うでしょう。もちろん、これらの抽出された機能(判別関数)-好きなように使用できます。標準のLDA分類では、ガウス分類器として使用されます。
ttnphns

LDAが最初に線形構成要素(判別式と呼ばれる)を抽出する」と読んだ場所はどこですか?決定境界が線形であるため、線形判別と呼ばれると思いました。これは、特徴共分散行列が異なるクラスで同じであると仮定した結果です。同様に、QDAには2次決定境界があります。これらは埋め込み図にも示されています。上記の動画のほかに、私は参照しています統計的学習の要素をPDF。108ページで、それは特徴抽出のは言及しないでLDAを記述する開始します。
zyxue

結局、私たちは同じことについて話していると思いますが、それは単に物事を命名する方法です。LDA = feature_extraction + Classificationと思いますが、私の参考資料に基づくと、LDAは分類に関するものです。ここのfeature_extraction部分はFDAと呼ばれます。重要なことは、ここで関係するクラスの数とは関係ありません。LDAとFDAの両方が3つ以上のクラスを処理できます。
zyxue

使用されている定義にも固執する場合があります。とにかく、「線形構造」と「線形決定境界」は関連していることに注意する必要があります。DAのコンテキストでは、それらはほぼ同じものです。決定境界線を直線として写真を見てください。tooクラスを変換すると、楕円形が球形になり、判別関数が境界線に正確に垂直になります。実際、ここでの「主要な」ものは判別関数、変数、次元であり、決定境界は空間の方向に依存する境界です。12月の境界は「二次」です。
ttnphns
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.