t-SNEとUMAPの主な違いは、オブジェクトまたは「クラスター」間の距離の解釈です。どちらのアルゴリズムもクラスタリング用ではないため、引用符を使用します。これらは主に視覚化を目的としています。
t-SNEはローカル構造をデータに保存します。
UMAPは、データのローカル構造とグローバル構造の両方を保持すると主張しています。
つまり、t-SNEでは、プロットの異なる端でのクラスターAとBの間の距離を解釈できません。これらのクラスターがAおよびCよりも類似していないと推測することはできません。CはプロットのAに近くなります。しかし、クラスターA内では、互いに近い点は、クラスター画像の異なる端にある点よりも類似したオブジェクトであると言えます。
UMAPを使用すると、ポイントとクラスターの/間の距離の両方を解釈できるはずです。
両方のアルゴリズムは非常に確率的で、ハイパーパラメーターの選択(t-SNEはUMAPよりもさらに大きい)に大きく依存し、異なる実行で非常に異なる結果を生成する可能性があるため、プロットは、後続の実行で明らかになる可能性があるデータの情報を難読化する可能性があります。
一方、古き良きPCAは決定論的であり、線形代数(行列の乗算と固有問題)の基本的な知識があれば簡単に理解できますが、t-SNEとUMAPの非線形削減とは対照的に、単なる線形削減です。