分類手法であるLDAがPCAのような次元削減手法としてどのように機能するか


19

この記事 では、著者は線形判別分析(LDA)を主成分分析(PCA)にリンクします。私の知識が限られているため、LDAがPCAといくぶん類似していることを理解することはできません。

LDAは、ロジスティック回帰と同様の分類アルゴリズムの一種であると常に考えてきました。LDAがPCAにどのように似ているか、つまり、次元削減手法であるLDAがどのように理解されているかを理解する上で、私はいくらか感謝します。


2
LDAを単なる分類手法と呼ぶのは正しくありません。複合的な2段階の手法です。まず次元を減らし、次に分類します。次元削減として、PCAとは異なり、監視されます。分類として、ロジスティック回帰とは異なり、限界確率を考慮します。
ttnphns

「次元削減」という用語を使用して、クラスタリングや冗長性分析などの教師なし学習方法のみを扱うのが最も明確です。LDAは厳密に監視された学習であるため、データ削減の最初のステップで使用される場合、過剰適合バイアスが発生します。
フランクハレル

古い非常によく似た質問:stats.stackexchange.com/q/22884/3277
ttnphns

1
フランク、たとえば、機能選択のさまざまな戦略は、LDAの第1段階で適用できます(あなたに反する段階的なアプローチを含む:-)。
ttnphns

回答:


22

質問へのコメントで述べたように、判別分析は、次元削減(教師あり)と分類段階という2つの異なる段階を持つ複合手順です。次元削減では、元の説明変数を置き換える判別関数を抽出します。次に、これらの関数を使用して、観測値をクラスに分類します(通常はベイズのアプローチによって)。

一部の人々は、2クラスのLDAのみに精通しているという理由だけで、この明確な2段階のLDAの性質を認識できない傾向があります(Fisherの判別分析と呼ばれます)。このような分析では、判別関数は1つしか存在せず、分類は簡単です。そのため、スペース削減とベイズ分類の概念を招くことなく、すべてを単一の「パス」で教科書で説明できます。

LDAはMANOVA と密接に関連しています。後者は(多変量)線形モデルの「表面的で幅広い」側面であり、その「深さおよび焦点」の図は正準相関分析(CCA)です。問題は、変数の2つの多変量セット間の相関が一次元ではなく、正準変数と呼ばれる「潜在的な」変数のいくつかのペアによって説明されることです。

次元削減として、LDA は理論的には2セットの変数を持つCCAであり、1セットは相関する「説明的な」区間変数であり、もう1セットはkグループを表すダミー(または他のコントラストコード)変数です。観測の。k1k

CCAでは、2つの相関変数セットXとYが同等の権利であると見なします。したがって、両側から正準変量を抽出し、ペアを形成します。セットXからの変量1とセットYからの変量1は、それらの間の正準相関を最大にします。次に、セットXからの変量2およびセットYからの変量2、より小さい正準相関などを使用します。LDAでは、通常、クラスセット側からの標準変量に数値的に関心がありません。ただし、説明セット側から標準的な変量に関心があります。それらは、正準判別関数または判別式と呼ばれます。

pkmnk1pを参照してください

繰り返しますが、これは実際にはCCAです。3+クラスのLDAは、「標準LDA」とも呼ばれます。通常、CCALDAはアルゴリズムの多少異なる方法で実装されますが、プログラムの効率の観点からは、同じ手順で得られた結果(係数など)を別の手順で得られた結果に再計算できるほど十分に「同じ」です。LDAの特異性のほとんどは、グループを表すカテゴリ変数のコーディングの領域にあります。これは、(M)ANOVAで見られるのと同じジレンマです。コーディングスキームが異なると、係数の解釈方法も異なります。

LDA(次元削減として)はCCAの特定のケースとして理解できるので、CCAとPCAおよび回帰を比較してこの答えを明確に検討する必要があります。主なポイントは、CCAはある意味で、PCAよりも回帰に近いということです。なぜなら、CCAは監視された手法であり(潜在的な線形結合が引き出されて外部の何かと相関する)、PCAはそうではない(潜在的な線形結合が描かれる)内部を要約するため)。これらは、次元削減の2つのブランチです。

数学に関して言えば、主成分の分散はデータクラウドの固有値(変数間の共分散行列)に対応していますが、判別式の分散は、で生成される固有値とそれほど明確に関連していないことがわかります。 LDA。その理由は、LDAでは、固有値はデータクラウドの形状を要約しないためです。むしろ、クラウド内のクラス間変動とクラス内変動の比の抽象的な量に関するものです。

したがって、主成分は分散を最大化し、判別式はクラス分離を最大化します。PCがクラスを十分に判別できず、判別できるのはこれらの写真である単純なケースです。元の特徴空間の線として描かれた場合、判別式は通常は直交しているように見えません(それでも相関関係はありません)が、PCはそうです。


細心の注意を要する脚注結果では、LDAはCCAとどのように関連しているのでしょうか。繰り返すには:あなたがしてLDAをすればp、変数やkクラス、あなたがそれらとセット1とCCAを行うpなどの変数とSET2 k-1のグループを表す指標のダミー変数(実際には、必ずしもインジケータ変数-のようなコントラストの変数の他のタイプ、偏差やヘルマートは-行います)、その後、結果はSet1に対して抽出された正準変量に関して同等です-LDAで抽出された判別関数に直接対応します。しかし、正確な関係は何ですか?

jj

CCA標準化係数LDA生係数=CCA正準変量値LDA判別値=変量のクラス分散内にプール 判別式のクラス分散内にプール

n-11

変量のクラス分散内にプール
聖 判別式の偏差σ

CCAとLDAの違いは、LDAがクラス(グループ)があることを「知っている」ためです。つまり、散布行列内および散布マトリックス間で計算するグループを直接指定します。これにより、計算がより高速になり、判別式によるその後の分類により便利になります。一方、CCAはクラスを認識せず、すべてが連続変数であるかのようにデータを処理します。これはより一般的ですが、計算が遅い方法です。しかし、結果は同等であり、その方法を示しました。

これまでのところ、それがいることを暗示したk-1ダミーはCCAに典型的な方法を入力している、すなわち中心(セット1の変数のように)。質問するかもしれませんが、すべてのkダミーを入力し、それらを中央に配置することは可能ですか?はい、おそらくそれほど便利ではありませんが、可能です。ゼロ固有値の追加正準変数が表示されます。そのための係数は捨てる必要があります。その他の結果は引き続き有効です。df sを除き、正準相関の有意性をテストします。1番目の相関のDf p*kは間違っており、LDAのように真のdfはp*(k-1)です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.