2
t-SNEが誤解を招くのはいつですか?
著者の一人からの引用: t-Distributed Stochastic Neighbor Embedding(t-SNE)は、高次元データセットの視覚化に特に適した次元削減のための(受賞した)テクニックです。 とても素晴らしいように聞こえますが、それは著者が話していることです。 著者からの別の引用(再:前述の競争): このコンペティションから何を奪いましたか? データの予測子のトレーニングを開始する前に、必ず最初にデータを視覚化してください!多くの場合、私が作成したような視覚化は、どのタイプの予測モデルを試すかを決定するのに役立つデータ分布に対する洞察を提供します。 情報は 失われる必要があります1-それは結局次元削減技術です。ただし、視覚化する際に使用するのが良い手法であるため、失われた情報は強調表示された情報よりも価値がありません(2次元または3次元に縮小することで可視化/理解可能になります)。 だから私の質問は: tSNEはいつジョブの間違ったツールになりますか? どのようなデータセットが機能しないのか、 どのような質問に答えられるように見えますが、実際には答えられませんか? 上記の2番目の引用では、データセットを常に視覚化することをお勧めします。この視覚化は常にtSNEで行う必要がありますか? 私は、この質問が逆に最もよく答えられることを期待しています。すなわち、答え:tSNEはいつ仕事に適したツールですか? 下の2枚の画像のために、生成モデル、ということ、それは誤解を招くことの例だった- (差別的モデルをクラス分け)私は分類されますどのように簡単にデータを私に教えてtSNEに依存しないように警告されている2が悪化していました最初/左で視覚化されたデータ(精度53.6%)は、2番目/右で同等のデータ(精度67.2%)よりも 1 私はこれについて間違っている可能性があります、私は座って後で証明/カウンターの例を試してみるかもしれません 2 生成モデルは識別モデルと同じではありませんが、これは私が与えられた例です。