t-Distributed Stochastic Neighbor Embedding(t-SNE)は、高次元データセットの視覚化に特に適した次元削減のための(受賞した)テクニックです。
とても素晴らしいように聞こえますが、それは著者が話していることです。
このコンペティションから何を奪いましたか?
データの予測子のトレーニングを開始する前に、必ず最初にデータを視覚化してください!多くの場合、私が作成したような視覚化は、どのタイプの予測モデルを試すかを決定するのに役立つデータ分布に対する洞察を提供します。
情報は 失われる必要があります1-それは結局次元削減技術です。ただし、視覚化する際に使用するのが良い手法であるため、失われた情報は強調表示された情報よりも価値がありません(2次元または3次元に縮小することで可視化/理解可能になります)。
だから私の質問は:
- tSNEはいつジョブの間違ったツールになりますか?
- どのようなデータセットが機能しないのか、
- どのような質問に答えられるように見えますが、実際には答えられませんか?
- 上記の2番目の引用では、データセットを常に視覚化することをお勧めします。この視覚化は常にtSNEで行う必要がありますか?
私は、この質問が逆に最もよく答えられることを期待しています。すなわち、答え:tSNEはいつ仕事に適したツールですか?
下の2枚の画像のために、生成モデル、ということ、それは誤解を招くことの例だった- (差別的モデルをクラス分け)私は分類されますどのように簡単にデータを私に教えてtSNEに依存しないように警告されている2が悪化していました最初/左で視覚化されたデータ(精度53.6%)は、2番目/右で同等のデータ(精度67.2%)よりも
1 私はこれについて間違っている可能性があります、私は座って後で証明/カウンターの例を試してみるかもしれません
2 生成モデルは識別モデルと同じではありませんが、これは私が与えられた例です。