タグ付けされた質問 「tsne」


1
T-SNEの視覚化では、より近いポイントをより類似していると見なすことができますか?
ヒントンの論文から、T-SNEはローカルの類似性を維持するのに優れた仕事をしており、グローバル構造(クラスター化)を維持するのにまともな仕事をしていることがわかります。 ただし、2D t-sneビジュアライゼーションでより近くに表示されるポイントを「より類似した」データポイントと見なすことができるかどうかはわかりません。25個の機能を持つデータを使用しています。 例として、下の画像を観察すると、青色のデータポイントが緑色のデータポイント、特に最大の緑色のポイントクラスターに似ていると仮定できますか?または、別の質問として、青い点が他のクラスターの赤い点よりも、最も近いクラスターの緑の点に似ていると仮定しても大丈夫ですか?(赤みがかったクラスターの緑の点は無視) sci-kit learn Manifold learningで提示されているような他の例を観察するとき、これを仮定するのは正しいように思えますが、統計的に正しいかどうかはわかりません。 編集 元のデータセットからの距離を手動で計算し(ペアワイズ平均ユークリッド距離)、視覚化は実際にデータセットに関する比例空間距離を表します。しかし、これは単なる偶然ではなく、t-sneの元の数学的定式化から予想されることがかなり許容できるかどうかを知りたいと思います。

1
最近傍はt-SNEで意味がありますか?
ここでの回答は、t-SNEの次元は無意味であり、ポイント間の距離は類似性の尺度ではないと述べています。 しかし、t-SNE空間での最近傍に基づくポイントについて何か言えるでしょうか。まったく同じポイントがクラスター化されていない理由に対するこの回答は、ポイント間の距離の比率が低次元表現と高次元表現で類似していることを示唆しています。 たとえば、次の画像は、私のデータセットの1つ(15クラス)のt-SNEを示しています。 cro 479(右上)は異常値と言えるでしょうか?されるfra 1353(左下)に似ているcir 375では他の画像よりもfra、クラス、など?または、これらは単なるアーティファクトである可能性があります。たとえばfra 1353、いくつかのクラスターの反対側で立ち往生し、他のfraクラスに強制的に進むことができませんでしたか?
10 tsne 


2
ビデオファイルのシャッフルされたピクセルを再構築する方法は?
ピクセルの順序が1回シャッフルされたビデオファイルがあるとします。つまり、ランダムな順序が一度定義され、すべてのフレームに適用されています。 ピクセルの最初の順序を取得するための既知のアプローチは存在しますか? 私は、空間と時間で相関しているピクセルをより近くに配置することにより、初期トポロジを取得することについていくつかのアイデアを持っています。これは研究されているのか、効率的なアルゴリズムが公開されているのか。 また、この問題は、コンピュータビジョン技術(CNNなど)を適用できるようにするために、時間の経過とともに変化する値のセットを2Dマトリックスに投影する方法と考えることができます。

2
高次元データのクラスタリング
TL; DR:ラベル付けされていないデータの大きな画像データセット(生のピクセルが約36 GiB)がある場合、K最初にクラスターの数を知らずに(ピクセル値に基づいて)画像をクラスター化するにはどうすればよいですか? 私は現在、画像をクラスター化するための教師なし学習プロジェクトに取り組んでいます。16x16x3のRGBピクセル値でMNISTをクラスタリングすると考えてください。クラスタリングする必要があるのは約4800万の例だけです。それらのアイデンティティを知らなくても、一部の画像は同じソースからのものであるため、確実に関連していることはわかりますが、たとえばK、セットでK平均法を「ただ」実行するための適切な方法もまだわかりません。 t-SNEを使用して手動の2D埋め込みを実行し、埋め込みスペースで手動でクラスター化することを考えていました(16x16x3-d で手動で実行するよりも簡単なタスク)。ただし、すべてのt-SNE実装で、データをメモリにロードする必要がありました。最初にt-SNEを実行し、次にt-SNE埋め込みデータでK-meansを実行することも考えましたが、MNISTからのt-SNEの結果を見ると、これらのクラスターが歪んでいる可能性があり、歪んでいる可能性があることは明らかです非線形の方法で。したがって、私がを知っていたKとしても、クラスターはおそらく分割されます。K平均にマハラノビス距離を使用することは興味深いかもしれませんが、そもそも共分散がわからないので、これも行き止まりのようです。 現在、サンプルでPCA圧縮を実行して、少なくともt-SNEのメモリをいくらか取り戻すことができるかどうかを試していますが、それが機能する場合と機能しない場合があります。 誰かが私にこれを行うための正しい方向へのポインタを与えることができますか(理想的には、Python、TensorFlow、またはApache Beam / Dataflowコンテキストでは必ずしも必要ではありません)?私は少し前にストリーミング/ボールK-meansの移植に取り組んでいましたが、「オンデマンド」で新しいクラスターを作成するという優れた特性がありますが、それをPython / TensorFlow / Dataflowに再び実装する前に、誰かができることを望んでいましたどこから始めるべきか、何を避けるべきか、いくつかのアイデアを教えてください。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.