タグ付けされた質問 「tsne」

T分布型確率的近傍埋め込み(t-SNE)は、2008年にvan der MaatenとHintonによって導入された非線形次元削減アルゴリズムです。


2
次元を削減するためのt-SNEのパラメーターを決定する方法は?
私は単語の埋め込みに非常に慣れていません。学習後のドキュメントの様子を視覚化したい。私はt-SNEがそれを行うためのアプローチであると読みました。埋め込みサイズとして250次元の100Kドキュメントがあります。同様に利用可能ないくつかのパッケージがあります。 ただし、t-SNEの場合、何回反復するか、アルファの値または永続性の値をよく学習するために維持する必要があるかわかりません。 これらのハイパーパラメータはありますか、それともいくつかの属性によって決定できますか?

1
PCAが大きなペアワイズ距離のみを保持することは何を意味しますか?
私は現在t-SNE視覚化手法について読んでいますが、主成分分析(PCA)を使用して高次元データを視覚化することの欠点の1つは、ポイント間の大きなペアワイズ距離しか保持されないことです。高次元空間で遠く離れている意味の点も低次元部分空間では遠く離れて表示されますが、他のすべてのペアワイズ距離が台無しになることを除いて。 なぜ誰かがそれを理解するのを手伝ってくれませんか?

1
連続変数とバイナリ変数が混在するt-SNE
現在、t-SNEを使用した高次元データの可視化について調査しています。バイナリ変数と連続変数が混在しているデータがあり、そのデータはバイナリデータを非常に簡単にクラスター化しているようです。もちろん、これはスケーリングされた(0と1の間の)データの場合に予想されます。ユークリッド距離は、バイナリ変数間で常に最大/最小になります。t-SNEを使用して混合バイナリ/連続データセットをどのように処理する必要がありますか?バイナリ列を削除する必要がありますか?metric使用できる別のものはありますか? 例として、次のpythonコードを考えます。 x1 = np.random.rand(200) x2 = np.random.rand(200) x3 = np.r_[np.ones(100), np.zeros(100)] X = np.c_[x1, x2, x3] # plot of the original data plt.scatter(x1, x2, c=x3) # … format graph だから私の生データは: ここで、色は3番目のフィーチャ(x3)の値です。3Dでは、データポイントは2つの平面(x3 = 0平面とx3 = 1平面)にあります。 次に、t-SNEを実行します。 tsne = TSNE() # sci-kit learn implementation X_transformed = StandardScaler().fit_transform(X) tsne = TSNE(n_components=2, …

3
n、pの両方が大きい場合、PCAが遅すぎる:代替案?
問題の設定 高次元(4096)のデータポイント(画像)があり、それを2Dで視覚化しようとしています。この目的のために、私はKarpathyによる次のコード例のような方法でt- sneを使用しています。 scikit-学ぶドキュメントは、最初のデータの次元を下げるためにPCAを使用することをお勧めします: 特徴の数が非常に多い場合は、別の次元削減方法(たとえば、密なデータの場合はPCA、疎なデータの場合はTruncatedSVD)を使用して、次元数を妥当な量(たとえば50)に減らすことを強くお勧めします。 私はこのコードをDarks.LiuによってJavaでPCAを実行するために使用しています: //C=X*X^t / m DoubleMatrix covMatrix = source.mmul(source.transpose()).div(source.columns); ComplexDoubleMatrix eigVal = Eigen.eigenvalues(covMatrix); ComplexDoubleMatrix[] eigVectorsVal = Eigen.eigenvectors(covMatrix); ComplexDoubleMatrix eigVectors = eigVectorsVal[0]; //Sort sigen vector from big to small by eigen values List<PCABean> beans = new ArrayList<PCA.PCABean>(); for (int i = 0; i < eigVectors.columns; i++) { …

2
スケーラブルな次元削減
特徴の数が一定であることを考えると、Barnes-Hut t-SNEはの複雑さを持ち、ランダムな投影とPCAは複雑さを持ち、非常に大きなデータセットに対して「手頃」になります。O(nlogn)O(nlog⁡n)O(n\log n)O(n)O(n)O(n) 一方、多次元スケーリングに依存するメソッドは複雑さを持っています。O(n2)O(n2)O(n^2) 複雑さがよりも低い他の次元削減手法(もちろん、最初の列を見るような簡単な手法を除くますか?kkkO(nlogn)O(nlog⁡n)O(n\log n)

1
PDFの分布のファミリーは
与えられた(比例定数まで)PDFで分布の家族を考えてみ それはどのように呼ばれますか?名前がない場合、どのように呼びますか?P (X )〜1(1 + α X2)1 / α。p(x)∼1(1+αx2)1/α.p(x)\sim \frac{1}{(1+\alpha x^2)^{1/\alpha}}. それは家族に非常に似ています -distributionsとPDF比例する P (X )〜1tttP (X )〜1(1 + 1νバツ2)(ν+ 1 )/ 2。p(x)∼1(1+1νx2)(ν+1)/2.p(x)\sim \frac{1}{(1+\frac{1}{\nu} x^2)^{(\nu+1)/2}}. とき、我々が持っているトン -distributionと1 DF、別名コーシー分布を。ときα → 0またはν → ∞、我々はガウス分布を得ます。α = ν= 1α=ν=1\alpha=\nu=1tttα → 0α→0\alpha\to 0ν→ ∞ν→∞\nu\to\infty この分布のファミリは、Yang et al。、Heavy-Tailed Symmetric Stochastic Neighbor Embedding、NIPS 2009に記載されていますが、それらを参照するために名前を使用していません。

1
t-SNE視覚化手法に関する直感
データセット(標準化された約10(平均= 0、sd = 1)の数値特徴)のt-SNE視覚化を生成し、次の2次元プロットに到達しました。点が一種の弧状のグループに整列している理由がよくわかりません。たとえば、囲まれた画像の右下の部分(または左端の部分)を参照してください。 元の論文http://www.cs.toronto.edu/~hinton/absps/tsne.pdfでも同様の効果が見つかりました-図4.aを参照してください。しかし、私はこの種の現象をうまく説明することができませんでした。 なぜこれが起こるのかに関する直感はありますか?

2
Rにt-SNEを実装すると、デフォルトで重複が削除されるのはなぜですか?
具体的には、Rtsneパッケージのt-SNEのR実装には「check_duplicates」引数があり、ドキュメントでは、「特に重複がないことを確認し、このオプションをFALSEに設定することをお勧めします(特に大規模なデータセットの場合)」。 さらに、重複しているRのデータセットでt-SNEを実行しようとすると、「[ユーザーがコマンドを削除したときにエラーが発生しました]:TSNEを実行する前に重複を削除してください」というエラーメッセージが表示されます。 では、なぜこの動作が発生するのでしょうか?複数のサンプルが偶然同じ測定値を持っているデータセットがあります。 それは単に「削減後の重複したデータポイントはとにかく同じデータポイントを持つので、処理能力を無駄にしないでください」ですか?重複の存在はプロセスの計算に影響しますか?
7 tsne 
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.