「スプリンググラフレイアウト」の画像を検索すると、同様の現象が見られます。これには、このようなアークの多くの例が示されています。画像の右端の上部近くに、そのような弧が1つあります。確かに、これは最良の例ではありません。右上のこの画像から、この論文では効果を少し示し
これらのグラフの視覚化のほとんどは、接続されたノードの各ペア間のばね力をシミュレートし、ノードがこの力に従って移動できるようにすることによって生成されます。
t-SNEでは、アルゴリズムの同様の解釈が可能です。2D空間内の点にはばねがあり、その静止長は元の高次元空間内の点の距離に依存します。したがって、2次元空間で高次元空間よりも近い点は離れてプッシュされ、2次元空間で高次元空間よりも遠い点は一緒に引き寄せられます。
したがって、データ内の別のポイントグループまでの距離を一定に維持しようとしているため、アークが形成される可能性があります。
上記のスプリンググラフレイアウトとは異なり、t-SNEのすべてのポイントのペアにはスプリング/フォースがアタッチされているため、以下のグラフの視覚化に示すように、アークが塊に凝集しない理由を尋ねることは有効な質問ですウィキペディアでは、エッジ上のノードのいくつかのグループが、弧ではなく丸みを帯びたクラスターを形成しています。
この理由は、t-SNEの各ポイントにばらつきが付けられているためだと思います。高次元空間のまばらな領域の点は、低次元空間の点に比べて分散が大きくなります。高分散ポイントのスプリングへの力が減少するため、アーク内のポイントが元の空間の疎な領域にある場合、それらをクラスターに引き込もうとする弱い力のみが存在し、他の力を克服できない可能性があります。反対勢力。
さらに、作成者が混雑を減らすために使用した方法は、2D空間で重い裾の分布を使用することでした。つまり、ポイントがお互いから遠く離れているためにポイントに過度のペナルティが課されないということです。これにより、アークをクラスターに引き込もうとする力も減少します。