統計とビッグデータ tsne

6

ノイズの多いデータセットをクラスター化してからクラスター内のサブグループ効果を探すのに便利なアプリケーションがあります。私は最初にPCAを調べましたが、変動の90％に達するには約30のコンポーネントが必要なので、わずか数台のPCでクラスタリングを行うと多くの情報が失われます。次に、t-SNEを（初めて）試しました。これにより、2次元で奇妙な形が得られ、k-meansを介したクラスタリングに非常に適しています。さらに、結果としてクラスター割り当てを使用してデータでランダムフォレストを実行すると、生データを構成する変数の観点から、問題のコンテキストを考慮して、クラスターがかなり賢明な解釈を持つことがわかります。しかし、これらのクラスターについてレポートする場合、どのように説明しますか？主成分のK-meansクラスターは、データセットの分散のX％を構成する派生変数に関して、互いに近い個人を明らかにします。t-SNEクラスターについて、同等のステートメントを作成できますか？おそらく次の効果があります： t-SNEは、基礎となる高次元多様体の近似的な連続性を明らかにするため、高次元空間の低次元表現上のクラスターは、隣接する個人が同じクラスターに存在しない「尤度」を最大化します誰もがそれよりも良い宣伝文句を提案できますか？

78 clustering interpretation k-means tsne

3

PCAがt-SNEよりも適している場合はありますか？

テキスト修正動作の7つの測定（テキストの修正に費やした時間、キーストロークの回数など）が互いにどのように関連するかを確認したいと思います。メジャーは相関しています。PCAを実行して、メジャーがPC1とPC2にどのように投影されるかを確認しました。これにより、メジャー間で個別の双方向相関テストを実行する重複を回避できました。いくつかのメジャー間の関係が非線形になる可能性があるため、t-SNEを使用しない理由を尋ねられました。非線形性を許容することでこれがどのように改善されるかはわかりますが、t-SNEではなくこの場合にPCAを使用する正当な理由があるのでしょうか？メジャーとの関係に従ってテキストをクラスタリングするのではなく、メジャー自体の関係に興味があります。（EFAはより良い/別のアプローチかもしれませんが、それは別の議論です。）他の方法と比較して、t-SNEに関する投稿はここにほとんどないので、質問する価値があるようです。

39 pca tsne

1

t-SNE目的関数でクロスエントロピーではなく、Kullback-Leibler発散を使用する理由

私の考えでは、サンプル分布から真の分布へのKLの相違は、単純にクロスエントロピーとエントロピーの違いです。多くの機械学習モデルでクロスエントロピーをコスト関数として使用するのに、t-sneでKullback-Leibler発散を使用するのはなぜですか？学習速度に違いはありますか？

39 kullback-leibler tsne cross-entropy

2

t-SNEが誤解を招くのはいつですか？

著者の一人からの引用： t-Distributed Stochastic Neighbor Embedding（t-SNE）は、高次元データセットの視覚化に特に適した次元削減のための（受賞した）テクニックです。とても素晴らしいように聞こえますが、それは著者が話していることです。著者からの別の引用（再：前述の競争）：このコンペティションから何を奪いましたか？データの予測子のトレーニングを開始する前に、必ず最初にデータを視覚化してください！多くの場合、私が作成したような視覚化は、どのタイプの予測モデルを試すかを決定するのに役立つデータ分布に対する洞察を提供します。情報は失われる必要があります1-それは結局次元削減技術です。ただし、視覚化する際に使用するのが良い手法であるため、失われた情報は強調表示された情報よりも価値がありません（2次元または3次元に縮小することで可視化/理解可能になります）。だから私の質問は： tSNEはいつジョブの間違ったツールになりますか？どのようなデータセットが機能しないのか、どのような質問に答えられるように見えますが、実際には答えられませんか？上記の2番目の引用では、データセットを常に視覚化することをお勧めします。この視覚化は常にtSNEで行う必要がありますか？私は、この質問が逆に最もよく答えられることを期待しています。すなわち、答え：tSNEはいつ仕事に適したツールですか？下の2枚の画像のために、生成モデル、ということ、それは誤解を招くことの例だった- （差別的モデルをクラス分け）私は分類されますどのように簡単にデータを私に教えてtSNEに依存しないように警告されている2が悪化していました最初/左で視覚化されたデータ（精度53.6％）は、2番目/右で同等のデータ（精度67.2％）よりも 1 私はこれについて間違っている可能性があります、私は座って後で証明/カウンターの例を試してみるかもしれません 2 生成モデルは識別モデルと同じではありませんが、これは私が与えられた例です。

37 data-visualization dimensionality-reduction tsne

3

t-SNEがクラスタリングまたは分類の次元削減手法として使用されないのはなぜですか？

最近の割り当てでは、MNISTの数字でPCAを使用して、寸法を64（8 x 8画像）から2に減らすように言われました。その後、ガウス混合モデルを使用して数字をクラスター化する必要がありました。2つの主成分のみを使用するPCAは、明確なクラスターを生成せず、その結果、モデルは有用なグループ化を生成できません。ただし、2つのコンポーネントを持つt-SNEを使用すると、クラスターの分離が大幅に改善されます。ガウス混合モデルは、t-SNEコンポーネントに適用すると、より明確なクラスターを生成します。 2コンポーネントのPCAと2コンポーネントのt-SNEの違いは、MNISTデータセットに変換が適用された次の画像のペアで見ることができます。 t-SNEは、この回答のように高次元データの視覚化にのみ使用されることを読んでいますが、それが生成する明確なクラスタを考えると、なぜ分類モデルに使用される次元削減手法として使用されないのですか？スタンドアロンのクラスタリング方法？

34 classification clustering pca dimensionality-reduction tsne

4

Rを使用した次元削減のためのt-SNEとPCAの何が問題になっていますか？

336x256の浮動小数点数（336の細菌ゲノム（列）x 256の正規化されたテトラヌクレオチド頻度（行）の行列があります。たとえば、各列の合計は1です）。主成分分析を使用して分析を実行すると、素晴らしい結果が得られます。最初にデータのkmeansクラスターを計算してから、PCAを実行し、2Dおよび3Dの初期kmeansクラスタリングに基づいてデータポイントを色付けします。 library(tsne) library(rgl) library(FactoMineR) library(vegan) # read input data mydata <-t(read.csv("freq.out", header = T, stringsAsFactors = F, sep = "\t", row.names = 1)) # Kmeans Cluster with 5 centers and iterations =10000 km <- kmeans(mydata,5,10000) # run principle component analysis pc<-prcomp(mydata) # plot dots plot(pc$x[,1], pc$x[,2],col=km$cluster,pch=16) # plot …

27 r pca tsne

3

視覚化のための次元削減は、t-SNEによって解決される「閉じた」問題と見なされるべきですか？

私は次元削減のための -snetttアルゴリズムについてたくさん読んでいます。MNISTのように数字の明確な分離を実現する「クラシック」データセットのパフォーマンスには非常に感銘を受けました（元の記事を参照）。また、トレーニング中のニューラルネットワークによって学習された機能を視覚化するためにも使用し、結果に非常に満足しています。だから、私が理解しているように： tttO （n ログn ）O（nログ⁡n）O(n \log n) これはかなり大胆な発言であることは承知しています。この方法の潜在的な「落とし穴」を理解することに興味があります。つまり、有用ではないことがわかっているケースはありますか？さらに、この分野の「未解決の」問題は何ですか？

23 clustering data-visualization dimensionality-reduction high-dimensional tsne

1

t-SNEとMDS

最近、t-SNE（t-Distributed Stochastic Neighbor Embedding）に関するいくつかの質問を読んでおり、MDS（Multidimensional Scaling）に関するいくつかの質問も訪れました。これらはよく似て使用されることが多いので、ここでは別々に（またはPCAと比較して）両方に多くの質問があるので、この質問をするのは良い考えのように思えました。要するに、t-SNEとMDSの違いは何ですか？例えば。探索するデータ階層の優れた点、さまざまな仮定など。収束率？カーネルの使用についてはどうですか、両方とも準拠していますか？

21 data-visualization dimensionality-reduction multidimensional-scaling tsne

5

ストリーミングデータ用のt-SNEのバージョンはありますか？

t-SNEとBarnes-Hut近似の私の理解は、すべての力の相互作用を同時に計算し、各ポイントを2d（または低次元）マップで調整できるように、すべてのデータポイントが必要であるということです。ストリーミングデータを効率的に処理できるt-sneのバージョンはありますか？したがって、私の観測が一度に1つずつ到着している場合、新しい観測を配置するのに最適な2Dマップ上の位置を見つけるか、2Dマップ上のすべてのポイントを継続的に更新して新しい観測を考慮します。これは理にかなっていますか、それともt-sneの設定に反しますか？

19 data-visualization dimensionality-reduction multidimensional-scaling tsne

1

t-SNEを適用する前に、データを中央揃え+スケーリングする必要がありますか？

一部のデータの機能には大きな値があり、他の機能にはもっと小さな値があります。大きな値への偏りを防ぐために、t-SNEを適用する前にデータを中央+スケールする必要がありますか？ Pythonのsklearn.manifold.TSNE実装をデフォルトのユークリッド距離メトリックとともに使用します。

18 normalization dimensionality-reduction high-dimensional tsne

2

t-SNEと比較した、UMAPの動作の直観的な説明

分子生物学の博士号を持っています。私の研究は最近、高次元のデータ分析を伴うようになりました。t-SNEがどのように機能するかはわかりましたが（YouTubeのStatQuestビデオのおかげです）、UMAPを思い巡らすことはできません（UMAPクリエーターの話をオンラインで聞いていましたが、簡単に理解できませんでした）。私はそれを説明する元の論文に戻りましたが、それは私にとってはあまりにも多くの数学でした。誰かが問題についていくつかの光を当てることができますか？上記のリンクされたStatQuestビデオと同様に、私は直観的な説明を探しています。

18 dimensionality-reduction intuition tsne

3

分類にT-SNEを使用してハイパーパラメーターを選択する

私が取り組んでいる特定の問題（競合）には、次の設定があります：21の機能（[0,1]の数値）とバイナリ出力。約100 Kの行があります。設定は非常に騒々しいようです。私と他の参加者はしばらくの間機能生成を適用し、この設定ではt分布の確率的近傍埋め込みがかなり強力であることが判明しました。私はこの記事「t-SNEを効果的に使用する方法」に出くわしましたが、それでも分類の設定で最適なハイパーパラメーターを選択する方法について結論を出すことはできません。経験則（特徴の数、埋め込みの次元->困惑の選択）はありますか？さまざまな設定を繰り返すのに時間がかかりすぎるため、現時点ではアドホック設定を適用します。コメントありがとうございます。

13 machine-learning dimensionality-reduction unsupervised-learning tsne

1

t-SNEの軸の意味は何ですか？

現在、私は頭をt-SNEに巻き付けようとしています。数学にます。残念ながら、まだ十分に答えられない質問が1つあります。t-SNEグラフの軸の実際の意味は何ですか？このトピックに関するプレゼンテーションを行うか、出版物に含める場合：軸に適切なラベルを付けるにはどうすればよいですか？ PS：私はこの Redditの質問を読みましたが、そこに与えられた答え（「解釈と領域の知識に依存する」など）は、本当にこれを理解するのに役立ちません。

12 machine-learning dimensionality-reduction tsne

1

データの視覚化とは別に、t-SNEの良い使い方は何ですか？

どのような状況で（データの視覚化は別として）t-SNEを使用する必要がありますか？ T-SNEは次元削減のために使用されます。これに対する答えの質問は、T-SNEのみ可視化のために、私たちは、クラスタリングのためにそれを使用してはならないことを使用すべきであることを示唆しています。では、t-SNEの適切な用途は何ですか？

12 data-visualization dimensionality-reduction tsne

1

t-SNEがクラスを適切に分離していることを確認した後、どの分類アルゴリズムを使用する必要がありますか？

分類の問題があり、最初にデータから何らかの洞察を得たいと思い、t-SNEを実行するとします。t-SNEの結果は、クラスを非常によく分離します。これは、クラスも非常にうまく分離する分類モデルを構築できることを意味します（t-SNEが十分に分離しない場合は、それほど意味しません）。 t-SNEはローカル構造に焦点を当てており、クラスを適切に分離できることを知っています。この問題でうまく機能するはずの分類アルゴリズムとは何ですか？ScikitはGaussian RBFカーネルを備えたSVMを提案していますが、他は何ですか？

12 classification tsne

タグ付けされた質問 「tsne」

タグ付けされた質問「tsne」