15個のラベル付きサンプル(10グループ)で構成されるデータセットがあります。ラベルの知識を考慮して、次元削減を2つの次元に適用します。
PCAなどの「標準」の教師なし次元削減手法を使用する場合、散布図は既知のラベルとは関係がないようです。
私が探しているものには名前がありますか?ソリューションの参考文献をいくつか読みたいです。
15個のラベル付きサンプル(10グループ)で構成されるデータセットがあります。ラベルの知識を考慮して、次元削減を2つの次元に適用します。
PCAなどの「標準」の教師なし次元削減手法を使用する場合、散布図は既知のラベルとは関係がないようです。
私が探しているものには名前がありますか?ソリューションの参考文献をいくつか読みたいです。
回答:
教師あり次元削減の最も標準的な線形方法は、線形判別分析(LDA)と呼ばれます。クラス分離を最大化する低次元投影を見つけるように設計されています。それに関する多くの情報は、判別分析タグの下、および無料で入手できるThe Elements of Statistics Learningなどの機械学習の教科書で見つけることができます。
ここで私が見つけたことを絵である、ここで簡単にGoogle検索では、データセットに2つのクラスがある場合、1次元のPCA投影とLDA投影を表示します(元は私によって追加されました)。
別のアプローチは、部分最小二乗(PLS)と呼ばれます。LDAは、グループラベルをエンコードするダミー変数と最も高い相関を持つ投影を探すものと解釈できます(この意味で、LDAは正準相関分析、CCAの特殊なケースと見ることができます)。対照的に、PLSはグループラベルとの共分散が最も高い投影を探します。LDAは2つのグループの場合に1軸のみを生成しますが(上の図のように)、PLSは減少する共分散によって順序付けられた多くの軸を見つけます。データセットに3つ以上のグループが存在する場合、PLSの異なる「フレーバー」があり、多少異なる結果が生成されることに注意してください。
アップデート(2018)
この答えを拡大する時間を見つける必要があります。このスレッドは人気があるようですが、上記の私の最初の答えは非常に短く、十分に詳細ではありません。