t-SNEと比較した、UMAPの動作の直観的な説明


18

分子生物学の博士号を持っています。私の研究は最近、高次元のデータ分析を伴うようになりました。t-SNEがどのように機能するかはわかりましたが(YouTubeのStatQuestビデオのおかげです)、UMAPを思い巡らすことはできません(UMAPクリエーターの話をオンラインで聞いていましたが、簡単に理解できませんでした)。私はそれを説明する元の論文に戻りましたが、それは私にとってはあまりにも多くの数学でした。

誰かが問題についていくつかの光を当てることができますか?上記のリンクされたStatQuestビデオと同様に、私は直観的な説明を探しています。


1
私は言葉の直観だけでなく、数学的な計算への簡単な洞察も求めています(後者が可能かどうかはわかりません)。UMAPについて次のようなものが見たい: "StatQuest tSNE Clearly Explained" youtube.com/watch?v=NEaUSP4YerM 私が言うとき、私はtSNEがどのように機能するかを理解し、ビデオで説明されている広範な計算アプローチを参照しています。高次元空間でのビデオの例を想像するのは少し難しいですが、全体として、距離がどのように計算されるかを確認できます。UMAPについて同様の理解をしたい
アタカン

回答:


13

t-SNEの理解はhttps://www.youtube.com/watch?v=NEaUSP4YerMに基づいており、同様のレベルでUMAPの説明を求めているとのことですが、

私はこのビデオを見ました、そしてそれが言うことでかなり正確です(私はいくつかのマイナーなつまようじを持っていますが、全体的にそれは問題ありません)。おもしろいことに、それはほとんどそのままUMAPに適用されます。適用されないものは次のとおりです。

  1. 類似度は、異なるカーネルを使用して距離から計算されます。これはガウスではありませんが、指数関数的に減衰し、t-SNEのように適応的な幅も持っています。
  2. 類似性は合計が1になるように正規化されていませんが、最終的には定数値を合計するように正規化されています。
  3. 類似性は対称化されていますが、平均化だけではありません。
  4. 埋め込み空間の類似性カーネルは、厳密にはt分布カーネルではなく、非常によく似たカーネルです。

これらの違いはすべて、それほど重要ではなく、あまり重要ではありません。実際に重要な部分は、ビデオでナレーターが言う部分(10分40秒)です。

私たちは作りたい、このような行を見て、この行を[...]

ビデオでは、t-SNEがそれらが類似しているかどうかを定量化する方法と、それらが類似して見えることを達成する方法について説明していません。UMAPでは両方の部分が異なります。しかし、引用されたステートメントはUMAPにも適用できます。


UMAP論文の記述方法、t-SNEとの計算上の類似性はあまり明らかではありません。https://arxiv.org/pdf/1802.03426.pdfの付録Cまで下にスクロールするか、またはhttps://arxiv.org/pdf/1802.03426.pdfをご覧になる場合は、https://jlmelville.github.io/uwot/umap-for-tsne.htmlこちらをご覧ください。上記の計算とt-SNEおよびUMAPの損失関数を並べて比較します。


これはとても役に立ちます、ありがとう!ビデオの特定のセグメントについて質問があります。彼が左側に「順序付けられていないヒートマップ」を表示している場合、注釈ドット(カラフルなデータポイント)が適切であり、行と列の交点の色の強度が右側のグラフと一致しません。それは不当表示ですよね?左側のグラフは、データポイントに関しては順序付けられていないことが予想され、UMAPによって順序付けされます。私はここで間違ったトラックにいますか?
アタカン

@アタカン私はあなたの言っていることがよくわかりません。虚偽の表示はありません。10:40のビデオフレームを見ています。左側の類似度マトリックスは「混乱」です。左側の「注釈ドット」は、各ポイントのクラスターをマークするだけです。ポイントに1から12までの番号が付けられていると想像してください。マトリックスの12行/列はこれらのポイントに対応しています。最初の4行は「青」の点に対応し、次の4行は「赤」の点に対応します。1次元の埋め込み(フレームの下部)は「乱雑」であるため、マトリックスの類似性「混乱」でもあります。
アメーバ

8

t-SNEとUMAPの主な違いは、オブジェクトまたは「クラスター」間の距離の解釈です。どちらのアルゴリズムもクラスタリング用ではないため、引用符を使用します。これらは主に視覚化を目的としています。

t-SNEはローカル構造をデータに保存します。

UMAPは、データのローカル構造とグローバル構造の両方を保持すると主張しています。

つまり、t-SNEでは、プロットの異なる端でのクラスターAとBの間の距離を解釈できません。これらのクラスターがAおよびCよりも類似していないと推測することはできません。CはプロットのAに近くなります。しかし、クラスターA内では、互いに近い点は、クラスター画像の異なる端にある点よりも類似したオブジェクトであると言えます。

UMAPを使用すると、ポイントとクラスターの/間の距離の両方を解釈できるはずです。

両方のアルゴリズムは非常に確率的で、ハイパーパラメーターの選択(t-SNEはUMAPよりもさらに大きい)に大きく依存し、異なる実行で非常に異なる結果を生成する可能性があるため、プロットは、後続の実行で明らかになる可能性があるデータの情報を難読化する可能性があります。

一方、古き良きPCAは決定論的であり、線形代数(行列の乗算と固有問題)の基本的な知識があれば簡単に理解できますが、t-SNEとUMAPの非線形削減とは対照的に、単なる線形削減です。


10
私はこの評価に強く反対します:「t-SNEはローカル構造を保持し、グローバル構造を無視します。UMAPはローカル構造とグローバル構造の両方を認めます。」UMAPは、t-SNEとまったく同じように、k最近傍グラフ(kのいくつかの小さな値に対して)で動作します。
アメーバ

これは実際にはUMAPの作者が主張していることです。たとえば、ここまたはここを参照してください。彼らの主張が真実ではないことを示す比較(理論的または実用的)を知っていますか?共有してください!
エドガー

6
私は彼らがこれを言うことを知っています...:-/しかし、この発言をしているのは彼ら自身なので、それを証明する責任は彼らにあります(私に反証するのではありません)。今まで見たものに確信が持てませんでした。
アメーバ

2
確かに、それはまだ新しいメソッドのようなものです。umapとt-sneのさらに厳密な評価が行われることを期待しましょう。私はあなたのポイントを反映するために私の答えを変更しました。
エドガー

4
今まさにこのトピックに関するプレプリントがあります。同じ初期化を使用する場合、UMAPはt-SNEよりも優れたグローバル構造を保持しません
krassowski
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.