教師あり次元削減


13

15個のラベル付きサンプル(10グループ)で構成されるデータセットがあります。ラベルの知識を考慮して、次元削減を2つの次元に適用します。

PCAなどの「標準」の教師なし次元削減手法を使用する場合、散布図は既知のラベルとは関係がないようです。

私が探しているものには名前がありますか?ソリューションの参考文献をいくつか読みたいです。


3
線形法を探している場合は、線形判別分析(LDA)を使用する必要があります。
アメーバは、モニカを復活させる

@amoeba:ありがとう。私はそれを使用し、はるかに優れたパフォーマンスを発揮しました!
ロイ

それが助けてくれてうれしい。さらにいくつかの参考文献を添えて簡単な回答を提供しました。
アメーバは、モニカを復活させる

1
1つの可能性は、最初にクラスの重心にまたがる9次元空間に縮小し、次にPCAを使用してさらに2次元に縮小することです。
A.ドンダ

関連:stats.stackexchange.com/questions/16305(おそらく重複していますが、逆の場合もあります。以下の回答を更新した後、私はこれに戻ります。)
アメーバは

回答:


27

教師あり次元削減の最も標準的な線形方法は、線形判別分析(LDA)と呼ばれます。クラス分離を最大化する低次元投影を見つけるように設計されています。それに関する多くの情報は、タグの下、および無料で入手できるThe Elements of Statistics Learningなどの機械学習の教科書で見つけることができます。

ここで私が見つけたことを絵である、ここで簡単にGoogle検索では、データセットに2つのクラスがある場合、1次元のPCA投影とLDA投影を表示します(元は私によって追加されました)。

PCA vs LDA

別のアプローチは、部分最小二乗(PLS)と呼ばれます。LDAは、グループラベルをエンコードするダミー変数と最も高い相関を持つ投影を探すものと解釈できます(この意味で、LDAは正準相関分析、CCAの特殊なケースと見ることができます)。対照的に、PLSはグループラベルとの共分散が最も高い投影を探します。LDAは2つのグループの場合に1軸のみを生成しますが(上の図のように)、PLSは減少する共分散によって順序付けられた多くの軸を見つけます。データセットに3つ以上のグループが存在する場合、PLSの異なる「フレーバー」があり、多少異なる結果が生成されることに注意してください。

アップデート(2018)

この答えを拡大する時間を見つける必要があります。このスレッドは人気があるようですが、上記の私の最初の答えは非常に短く、十分に詳細ではありません。

k


1
素敵なグラフィックは、多くの説明
Titou
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.