私は、主成分分析と多重判別分析(線形判別分析)の違いについてこの記事を読んでおり、MDA / LDAではなくPCAを使用する理由を理解しようとしています。
説明は次のように要約されます。
PCAで大まかに言えば、データが最も分散している(PCAはデータセット全体を1つのクラスとして扱うため、クラス内で)最大の分散を持つ軸を見つけようとしています。MDAでは、クラス間の分散をさらに最大化しています。
常に分散を最大化し、クラス間の分散を最大化したいと思いませんか?
私は、主成分分析と多重判別分析(線形判別分析)の違いについてこの記事を読んでおり、MDA / LDAではなくPCAを使用する理由を理解しようとしています。
説明は次のように要約されます。
PCAで大まかに言えば、データが最も分散している(PCAはデータセット全体を1つのクラスとして扱うため、クラス内で)最大の分散を持つ軸を見つけようとしています。MDAでは、クラス間の分散をさらに最大化しています。
常に分散を最大化し、クラス間の分散を最大化したいと思いませんか?
回答:
PCAは分類方法ではありません。
機械学習におけるPCAは、特徴エンジニアリング手法として扱われます。PCAをデータに適用すると、結果の機能間に相関がないことが保証されます。多くの分類アルゴリズムがその恩恵を受けています。
アルゴリズムにはデータに関する仮定がある可能性があり、そのような仮定が保持されない場合、パフォーマンスが低下する可能性があることに常に留意する必要があります。
LDAは、データを投影するために共分散行列の反転を計算する必要があります(これらのスレッドと回答を確認してください:分類を行う前にPCAを実行する必要がありますか?PCAとLDAを組み合わせることは意味がありますか?)。データがほとんどない場合、これは不安定であり、データポイントへの過剰適合投影、つまり、クラス内の特異共分散行列が得られます。PCAは通常、それを回避するために使用され、問題の次元を減らします。
したがって、PCAを使用して分類を行うことはありませんが、PCAを使用してLDAのパフォーマンスを向上させることができます。
Firebugによる以前の回答は正しいのですが、別の視点を追加したいと思います。
教師なし学習と教師あり学習:
LDAは、クラスターを分離することを目的とした次元を見つけるのに非常に役立ちます。LDAは必ずしも分類子ではありませんが、分類子として使用できます。したがって、LDAは教師あり学習でのみ使用できます
PCAは、ノイズ除去と次元削減のための一般的なアプローチであり、教師あり学習におけるクラスラベルなどの詳細情報を必要としません。したがって、教師なし学習で使用できます。
LDA is not neccesarily a classifier
。読者(OPも)も、この関連質問を読むことをお勧めします。LDA(分類手法)も、PCAのような次元削減手法として機能します。