線形判別分析と非正規分布データ


8

私が正しく理解している場合、線形判別分析(LDA)は、最適性基準のすべてのクラスについて、正規分布データ、独立特徴、および同一の共分散を想定しています。

平均と分散はトレーニングデータから推定されるため、既に違反ではありませんか?

記事に引用文を見つけました(Li、Tao、Shenghuo Zhu、Mitsunori Ogihara。「判別分析を使用したマルチクラス分類:実験的調査」。Knowledgeand Information Systems 10、no。4(2006):453–72 。)

「線形判別分析は、グループ間の共通の共分散行列と正常性の仮定に違反することが多いにもかかわらず、顔と物体の認識のタスクで優れたパフォーマンスを頻繁に達成します(Duda、et al。、2001)」

-残念ながら、Duda et。に対応するセクションが見つかりませんでした。al。「パターン分類」。

次元削減のコンテキストで非通常のデータにLDA(vs.正則化LDAまたはQDA)を使用することについての経験または考えはありますか?


1
マルチクラスLDAについて具体的に質問します。マルチクラスLDAと2クラスLDAは、この点で(正常性や共通の共分散の仮定に違反して)動作が異なると思いますか?
amoeba 2014

ここで何か欠落していない場合、それは同じ仮定に基づいているはずですよね?Raoの論文に正規性に関する仮定がまったく見当たらないだけでしたが、質問を一般化しました

回答:


11

Hastie et al。統計学習の要素、セクション4.3で(2クラスLDAのコンテキストで)それについて言わなければなりません。

最小二乗法によるLDA方向のこの導出では、特徴にガウス仮定を使用しないため、その適用範囲はガウスデータの領域を超えて広がります。ただし、(4.11)に示されている特定の切片またはカットポイントの導出には、ガウスデータが必要です。したがって、代わりに、特定のデータセットのトレーニングエラーを経験的に最小化するカットポイントを選択することは理にかなっています。これは実際にうまく機能することがわかったものですが、文献では言及されていません。

私は彼らが参照する最小二乗法による導出を完全に理解していませんが、一般的には [更新:ある時点で簡単に要約します]この段落は理にかなっていると思います:データが非常に非ガウスまたはクラスであっても共分散は大きく異なりますが、LDA軸はおそらく何らかの識別可能性をもたらします。ただし、LDAによって与えられるこの軸上のカットポイント(2つのクラスを分離する)は完全にオフにすることができます。個別に最適化すると、分類を大幅に改善できます。

これは分類のパフォーマンスのみを指すことに注意してください。必要なのは次元削減だけなら、LDA軸で十分です。ですから、私の推測では、次元削減のために、仮説が破られたとしても、LDAはまともな仕事をすることが多いと思います。

rLDAおよびQDAについて:クラス内共分散を確実に推定するのに十分なデータポイントがない場合は、rLDAを使用する必要があります(この場合は不可欠です)。また、QDAは非線形の方法であるため、次元削減のためにQDAを使用する方法がわかりません。


この貴重で徹底的なフィードバックをありがとう!質問を数日間開いたままにして、さらに意見を集めます

数日が経ちました:)
amoeba

LDA / FDAを使用した次元削減のコンテキストでそれを知ることができますか?LDA/FDA can start with n dimensions and end with k dimensions, where k < n。あれは正しいですか?または出力があるc-1 where c is the number of classes and the dimensionality of the data is n with n>c.
AAN
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.