T-SNEの視覚化では、より近いポイントをより類似していると見なすことができますか?


14

ヒントンの論文から、T-SNEはローカルの類似性を維持するのに優れた仕事をしており、グローバル構造(クラスター化)を維持するのにまともな仕事をしていることがわかります。

ただし、2D t-sneビジュアライゼーションでより近くに表示されるポイントを「より類似した」データポイントと見なすことができるかどうかはわかりません。25個の機能を持つデータを使用しています。

例として、下の画像を観察すると、青色のデータポイントが緑色のデータポイント、特に最大の緑色のポイントクラスターに似ていると仮定できますか?または、別の質問として、青い点が他のクラスターの赤い点よりも、最も近いクラスターの緑の点に似ていると仮定しても大丈夫ですか?(赤みがかったクラスターの緑の点は無視)

ここに画像の説明を入力してください

sci-kit learn Manifold learningで提示されているような他の例を観察するとき、これを仮定するのは正しいように思えますが、統計的に正しいかどうかはわかりません。

ここに画像の説明を入力してください

編集

元のデータセットからの距離を手動で計算し(ペアワイズ平均ユークリッド距離)、視覚化は実際にデータセットに関する比例空間距離を表します。しかし、これは単なる偶然ではなく、t-sneの元の数学的定式化から予想されることがかなり許容できるかどうかを知りたいと思います。


1
青い点はそれぞれの隣の緑の点に最も近く、これが埋め込みの実行方法です。大まかに言えば、類似性(または距離)は保持されるべきです。25次元から2次元にすると、情報が失われる可能性が非常に高くなりますが、2D表現が画面に表示できる最も近いものになります。
ヴラディスラフドブガレス

回答:


5

ローカル線形埋め込みのスマートな確率的適応としてt-SNEを提示します。どちらの場合も、高次元の空間から小さな空間にポイントを投影しようとします。この予測は、ローカル距離の保存を最適化することで行われます(LLEを直接使用して、確率分布を事前に生成し、t-SNEでKL発散を最適化します)。そして、あなたの質問がグローバルな距離を保っていれば、答えはノーです。データの「形状」に依存します(分布が滑らかな場合は、距離を何らかの方法で保存する必要があります)。

t-SNEは実際にはスイスロール(「S」3D画像)ではうまく機能せず、2Dの結果では、非常に真ん中の黄色のポイントが一般的に青いポイントよりも赤いポイントに近いことがわかります( 3D画像の中央に完全に配置されます)。

t-SNEが行う他の良い例は、手書き数字のクラスタリングです。このリンクの例を参照してください:https : //lvdmaaten.github.io/tsne/


2
私が意味するのは、類似性の基準として下の空間の距離だけを使用することはできないということです。t-SNEはクラスターなどのグローバル構造を保持しますが、距離を保持する必要はありません。これは、高次元データの形状と使用する複雑さに依存します。
ロビン

1
なるほど、分かりました。明確にしてくれてありがとう。はい、低い空間での距離は正確ではないことに同意します。現在、t-sneは視覚化に実用的であるため、低次元プロットで距離を概念的に使用できますか?たとえば、私のプロットでは、2d空間で3つのグループが明確に分離されていることを考えると、青い点は赤い点よりも緑の点に近いか、より近いと確信を持って言えます。それとも言うのも難しいでしょうか?
Javierfdr

1
言うのはかなり難しい。低次元空間の点は、原点を中心とするガウス分布で初期化されます。その後、KLの発散を最適化するために繰り返し置き換えられます。あなたの場合、青い点は緑のクラスターに似ていますが、赤のクラスターよりもどれだけ近いかを評価する方法があります。t-SNE。
ロビン

1
まとめると、t-SNEは、(1)大きなペアワイズ距離による異種データポイントのモデリング、(2)小さなペアワイズ距離による類似データポイントのモデリングに重点を置いています。具体的には、t-SNEは低次元マップに長距離の力を導入し、最適化の早い段階で分離される2つの(点の)類似点を引き戻すことができます。
ロビン

1
非常に良い説明。ご尽力ありがとうございました。私はあなたの異なるコメントが完全な答えをまとめると思います。
Javierfdr
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.