t-SNEが誤解を招くのはいつですか?


37

著者の一人からの引用:

t-Distributed Stochastic Neighbor Embedding(t-SNE)は、高次元データセットの視覚化に特に適した次元削減のための(受賞した)テクニックです。

とても素晴らしいように聞こえますが、それは著者が話していることです。

著者からの別の引用(再:前述の競争):

このコンペティションから何を奪いましたか?
データの予測子のトレーニングを開始する前に、必ず最初にデータを視覚化してください!多くの場合、私が作成したような視覚化は、どのタイプの予測モデルを試すかを決定するのに役立つデータ分布に対する洞察を提供します。

情報は 失われる必要があります1-それは結局次元削減技術です。ただし、視覚化する際に使用するのが良い手法であるため、失われた情報は強調表示された情報よりも価値がありません(2次元または3次元に縮小することで可視化/理解可能になります)。

だから私の質問は:

  • tSNEはいつジョブの間違ったツールになりますか?
  • どのようなデータセットが機能しないのか、
  • どのような質問に答えられるように見えますが、実際には答えられませんか?
  • 上記の2番目の引用では、データセットを常に視覚化することをお勧めします。この視覚化は常にtSNEで行う必要がありますか?

私は、この質問が逆に最もよく答えられることを期待しています。すなわち、答え:tSNEはいつ仕事に適したツールですか?


下の2枚の画像のために、生成モデル、ということ、それは誤解を招くことの例だった- (差別的モデルをクラス分け)私は分類されますどのように簡単にデータを私に教えてtSNEに依存しないように警告されている2が悪化していました最初/左で視覚化されたデータ(精度53.6%)は、2番目/右で同等のデータ(精度67.2%)よりも

最初 第二


1 私はこれについて間違っている可能性があります、私は座って後で証明/カウンターの例を試してみるかもしれません

2 生成モデルは識別モデルと同じではありませんが、これは私が与えられた例です。


1
「情報は失われなければならない」というあなたの声明について:セットと間の全単射マッピングは、それらのカーディナリティが一致する場合にのみ存在します。そして、たとえば、および(こちらをご覧ください)。すなわち、原則的に、私たちは中に多くの情報として詰め込むことができのように。B | A | = | B | | N | = | N n | = 0 | R | = | R | = | R n | = 1 R 2 RAB|A|=|B||N|=|Nn|=0|R|=|R|=|Rn|=1R2R
ルーカス

@ルーカス:ああ、もちろん。(どうして私はそれを知らなかった)
リンドンホワイト

どのような生成モデルを試みていますか?
WeiChing林

@ Wei-ChingLinどんな種類の生成モデルが使用されているのかわかりません。おそらくある種のDeep Belief Network、Deep Boltzmann Manchine、またはAutoencoder。質問の中心にはあまり関係ない
リンドンホワイト

回答:


13

T-Sneは、スペースの小規模な構造(つまり、何に特に近いか)を維持する縮小技術であり、データの分離性を視覚化するのに非常に優れています。つまり、T-Sneは、データの分離性の程度を理解することを目的とした早期の視覚化に特に役立ちます。他の手法(PCAなど)では、次元が消えるとデータが互いに重なり合う低次元の表現になり、高次元の空間での分離可能性について明確に述べることが非常に難しくなります。

そのため、たとえば、重複するデータが大量にあるT-Sneグラフを取得した場合、何をしても分類器のパフォーマンスが低下する可能性が高くなります。逆に、T-Sneグラフに明確に分離されたデータが表示される場合、基礎となる高次元のデータには、適切な分類器を構築するのに十分な変動性が含まれています。


3
これは、T-SNEが何であるかを非常によく説明しています。しかし、私は(開口ポストにドットポイントを参照してください。)私の実際の質問の答えを見ていないよ
リンドンホワイト

5
これは質問にまったく答えません。
アメーバは、モニカを復活させる

10

すぐに使用可能なtSNEには、いくつかのハイパーパラメーターがありますが、主なものは困惑です。経験則的に、perplexityはtSNEの類似性の概念を定義し、すべてのデータポイントにユニバーサルperplexityが使用されることを忘れないでください。各クラスターの混乱度が大きく異なるラベル付きデータセットを生成してみてください。これは、ガウス分布をさまざまな分散で混合することで実現できます。これはtSNEのBarnes-Hut実装にも問題を引き起こすと推測しています。これは4分の1データに依存し、最も近い隣人のみを使用します。tSNEには初期緩和期間もあり、これはクラスターを相互に通過させようとします。この期間中、ペナルティや反発はありません。たとえば、データがつや消しの麺の塊(各麺が特定のクラスターを表す)に見える場合、最初のパススルーを調整するのに苦労することになります。tSNEがうまく機能するかどうかは疑問です。ある意味では、これは、データが一緒に織り込まれ、最初に低次元空間、たとえば5にある場合、tSNEがうまく機能しないことを示唆していると思います。

t

k

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.