t-SNE視覚化手法に関する直感

データセット（標準化された約10（平均= 0、sd = 1）の数値特徴）のt-SNE視覚化を生成し、次の2次元プロットに到達しました。点が一種の弧状のグループに整列している理由がよくわかりません。たとえば、囲まれた画像の右下の部分（または左端の部分）を参照してください。

元の論文http://www.cs.toronto.edu/~hinton/absps/tsne.pdfでも同様の効果が見つかりました-図4.aを参照してください。しかし、私はこの種の現象をうまく説明することができませんでした。

なぜこれが起こるのかに関する直感はありますか？

data-visualization tsne

— JanekL
ソース

必須のクールな近似t-SNEアニメーション：リンク

— Firebug

Firebugのリンクが壊れています。多分このチュートリアルをチェックしてください：distill.pub/2016/misread-tsne

— LE Rogerson

任意のデータセットによって変わる可能性のあるランダムな質問の一種。

「スプリンググラフレイアウト」の画像を検索すると、同様の現象が見られます。これには、このようなアークの多くの例が示されています。画像の右端の上部近くに、そのような弧が1つあります。確かに、これは最良の例ではありません。右上のこの画像から、この論文では効果を少し示し

これらのグラフの視覚化のほとんどは、接続されたノードの各ペア間のばね力をシミュレートし、ノードがこの力に従って移動できるようにすることによって生成されます。

t-SNEでは、アルゴリズムの同様の解釈が可能です。2D空間内の点にはばねがあり、その静止長は元の高次元空間内の点の距離に依存します。したがって、2次元空間で高次元空間よりも近い点は離れてプッシュされ、2次元空間で高次元空間よりも遠い点は一緒に引き寄せられます。

したがって、データ内の別のポイントグループまでの距離を一定に維持しようとしているため、アークが形成される可能性があります。

上記のスプリンググラフレイアウトとは異なり、t-SNEのすべてのポイントのペアにはスプリング/フォースがアタッチされているため、以下のグラフの視覚化に示すように、アークが塊に凝集しない理由を尋ねることは有効な質問ですウィキペディアでは、エッジ上のノードのいくつかのグループが、弧ではなく丸みを帯びたクラスターを形成しています。

この理由は、t-SNEの各ポイントにばらつきが付けられているためだと思います。高次元空間のまばらな領域の点は、低次元空間の点に比べて分散が大きくなります。高分散ポイントのスプリングへの力が減少するため、アーク内のポイントが元の空間の疎な領域にある場合、それらをクラスターに引き込もうとする弱い力のみが存在し、他の力を克服できない可能性があります。反対勢力。

さらに、作成者が混雑を減らすために使用した方法は、2D空間で重い裾の分布を使用することでした。つまり、ポイントがお互いから遠く離れているためにポイントに過度のペナルティが課されないということです。これにより、アークをクラスターに引き込もうとする力も減少します。

— シマオ
ソース