統計とビッグデータ dimensionality-reduction

5

上位主成分は、従属変数の予測力をどのように保持できますか（または、より良い予測につながりますか）？

私は回帰実行していると仮定Y〜XY〜バツY \sim X。上位kkk主成分を選択することにより、モデルは予測力を保持するのはなぜですか？YバツバツXYYY 次元削減/機能選択の観点から、が上位固有値を持つの共分散行列の固有ベクトルであり、が上位主成分である場合、最大の分散で。それにより、特徴の数をkに減らして、予測力の大部分を保持することができます。 X K X 、V 1、XのV 2。。。X v k k kv1、v2、。。。vkv1、v2、。。。vkv_1, v_2, ... v_kXバツXkkkXv1,Xv2...Xvkバツv1、バツv2。。。バツvkXv_1, Xv_2 ... Xv_kkkkkkk しかし、なぜ上位コンポーネントが予測力を保持するのでしょうか？YkkkYYY 一般的なOLSについて話す場合、フィーチャ分散が最大である場合、が最も予測力があることを示唆する理由はありません。Z I Z I YY∼ZY〜ZY \sim ZZiZ私Z_iZiZ私Z_iYYY コメントを見た後の更新：次元削減のためにPCAを使用する例がたくさんあると思います。私は、残された次元が最も予測力があることを意味していると思っていました。それ以外の場合、次元削減のポイントは何ですか？

25 regression classification pca dimensionality-reduction regularization

2

「非線形次元削減」のように「非線形」を理解する方法は？

線形次元削減法（PCAなど）と非線形法（Isomapなど）の違いを理解しようとしています。この文脈で（非）線形性が何を意味するのか、私にはまったく理解できません。ウィキペディアから読んだこと比較すると、PCA（線形次元削減アルゴリズム）を使用してこの同じデータセットを2つの次元に削減すると、結果の値はあまり整理されません。これは、この多様体をサンプリングする高次元ベクトル（それぞれが文字「A」を表す）が非線形に変化することを示しています。何をするこの多様体をサンプリングする高次元ベクトル（それぞれ文字「A」を表す）は、非線形に変化します。平均？それとももっと広い意味で、この文脈における（非）線形性をどのように理解すればよいのでしょうか？

24 pca terminology dimensionality-reduction pattern-recognition manifold-learning

3

視覚化のための次元削減は、t-SNEによって解決される「閉じた」問題と見なされるべきですか？

私は次元削減のための -snetttアルゴリズムについてたくさん読んでいます。MNISTのように数字の明確な分離を実現する「クラシック」データセットのパフォーマンスには非常に感銘を受けました（元の記事を参照）。また、トレーニング中のニューラルネットワークによって学習された機能を視覚化するためにも使用し、結果に非常に満足しています。だから、私が理解しているように： tttO （n ログn ）O（nログ⁡n）O(n \log n) これはかなり大胆な発言であることは承知しています。この方法の潜在的な「落とし穴」を理解することに興味があります。つまり、有用ではないことがわかっているケースはありますか？さらに、この分野の「未解決の」問題は何ですか？

23 clustering data-visualization dimensionality-reduction high-dimensional tsne

1

次元数がである場合、データに対して

PCAでは、次元数がサンプル数よりも大きい（または等しい）場合、最大で非ゼロの固有ベクトルを持つことになります。つまり、次元間の共分散行列のランクはです。dddNNNN− 1N−1N-1d≥ Nd≥Nd\ge NN− 1N−1N-1 例：サンプルはベクトル化された画像で、寸法はですが、画像しかありません。d= 640 × 480 = 307200d=640×480=307200d = 640\times480 = 307\,200N= 10N=10N=10

22 pca dimensionality-reduction eigenvalues

2

「ランクを下げた回帰」とは何ですか？

私は統計学習の要素を読んでおり、セクション3.7「複数の結果の縮小と選択」が何であるかを理解できませんでした。RRR（Reduced-Rank Regression）について説明しており、前提は一般的な多変量線形モデルに関するものであり、係数は不明であり（推定される）、完全なランクを持たないことがわかっていることしか理解できません。私が理解しているのはそれだけです。残りの数学は私を超えています。著者が「見せることができる」と言うことさえ助けにならず、物事を演習として残します。誰かがここで何が起こっているのかを直感的に説明してもらえますか？この章では、おそらく新しい方法について説明していますか？または何？

22 regression multivariate-analysis dimensionality-reduction regularization reduced-rank-regression

1

t-SNEとMDS

最近、t-SNE（t-Distributed Stochastic Neighbor Embedding）に関するいくつかの質問を読んでおり、MDS（Multidimensional Scaling）に関するいくつかの質問も訪れました。これらはよく似て使用されることが多いので、ここでは別々に（またはPCAと比較して）両方に多くの質問があるので、この質問をするのは良い考えのように思えました。要するに、t-SNEとMDSの違いは何ですか？例えば。探索するデータ階層の優れた点、さまざまな仮定など。収束率？カーネルの使用についてはどうですか、両方とも準拠していますか？

21 data-visualization dimensionality-reduction multidimensional-scaling tsne

3

次元数がサンプル数より大きい場合のPCA

私は、分類器に渡す必要がある14000個のデータポイント（次元）を含む10人（つまり100個のサンプル）に対して1人あたり10個の信号があるシナリオに遭遇しました。このデータの次元数を減らしたいのですが、PCAがそうするようです。ただし、サンプルの数が次元の数よりも大きいPCAの例を見つけることしかできませんでした。SVDを使用してPCを検出するPCAアプリケーションを使用しています。100x14000データセットを渡すと101個のPCが返されるため、ほとんどのディメンションは明らかに無視されます。プログラムは、最初の6台のPCに90％の分散が含まれることを示しています。これらの101台のPCには本質的にすべての分散が含まれており、残りの次元は無視できるというのは合理的な仮定ですか？私が読んだ論文の1つは、自分のデータセットと同様の（わずかに低い品質）データセットを使用して、4500の次元を80に減らして元の情報の96％を保持できたと主張しています。使用されたPCA手法の詳細に関する論文の手振り、3100サンプルのみが利用可能であり、PCAを実際に実行するために使用されたサンプルよりも少ないサンプルを信じる理由があります（分類段階からバイアスを取り除くため）。私は何かを見逃していますか、これは本当にPCAが高次元で低サンプルサイズのデータセットで使用される方法ですか？フィードバックは大歓迎です。

21 pca dimensionality-reduction svd

4

ユークリッドベースのクラスタリングアルゴリズムで混合データが問題になるのはなぜですか？

ほとんどの古典的なクラスタリングおよび次元削減アルゴリズム（階層的クラスタリング、主成分分析、k-means、自己組織化マップ...）は数値データ専用に設計されており、それらの入力データはユークリッド空間の点と見なされます。これはもちろん問題です。多くの現実世界の質問には混合データが含まれているためです。たとえば、バスを勉強する場合、高さと長さ、モーターサイズは数字になりますが、色（カテゴリ変数：青/ red / green ...）および容量クラス（順序変数：小/中/大容量）。具体的には、これらのさまざまなタイプの変数を同時に調べたい場合があります。たとえば、階層型クラスタリングまたは多次元スケーリングにプラグインするGowerの非類似性、または距離行列を入力として使用する他の方法を使用して、従来のクラスタリングアルゴリズムを混合データに拡張する方法がいくつかあります。または、たとえばこのメソッド、混合データへのSOMの拡張。私の質問は、なぜ混合変数にユークリッド距離を使用できないのですか？またはなぜそうするのが悪いのですか？カテゴリ変数をダミーエンコードし、すべての変数を観測間の距離で同様の重みを持つように正規化し、これらの行列で通常のアルゴリズムを実行できないのはなぜですか？それは本当に簡単であり、一度も行われたことがないので、それは非常に間違っていると思いますが、誰がその理由を教えてもらえますか？および/またはいくつかのrefを教えてください？ありがとう

21 clustering dimensionality-reduction distance self-organizing-maps mixed-type-data

4

機能主成分分析（FPCA）：それは何ですか？

機能的主成分分析（FPCA）は、私が偶然見つけたものであり、理解できなかったものです。それは何ですか？ Shang、2011による「機能的主成分分析の調査」を参照してください。 PCAは、「次元の呪い」（Bellman 1961）のために、機能データの分析において深刻な困難に直面します。「次元の呪い」は、高次元空間におけるデータの希薄性に由来します。PCAの幾何学的特性が有効なままであっても、数値的手法が安定した結果を提供する場合でも、サンプル共分散行列は母集団共分散行列の不十分な推定値である場合があります。この困難を克服するために、FPCAはPCAよりもサンプルの共分散構造を調べるより有益な方法を提供します[...] わかりません。この論文が説明している欠点は何ですか？PCAは、「次元の呪い」のような状況を処理する究極の方法であると想定されていませんか？

21 time-series pca dimensionality-reduction

1

分類手法であるLDAがPCAのような次元削減手法としてどのように機能するか

この記事では、著者は線形判別分析（LDA）を主成分分析（PCA）にリンクします。私の知識が限られているため、LDAがPCAといくぶん類似していることを理解することはできません。 LDAは、ロジスティック回帰と同様の分類アルゴリズムの一種であると常に考えてきました。LDAがPCAにどのように似ているか、つまり、次元削減手法であるLDAがどのように理解されているかを理解する上で、私はいくらか感謝します。

19 classification pca dimensionality-reduction discriminant-analysis canonical-correlation

5

ストリーミングデータ用のt-SNEのバージョンはありますか？

t-SNEとBarnes-Hut近似の私の理解は、すべての力の相互作用を同時に計算し、各ポイントを2d（または低次元）マップで調整できるように、すべてのデータポイントが必要であるということです。ストリーミングデータを効率的に処理できるt-sneのバージョンはありますか？したがって、私の観測が一度に1つずつ到着している場合、新しい観測を配置するのに最適な2Dマップ上の位置を見つけるか、2Dマップ上のすべてのポイントを継続的に更新して新しい観測を考慮します。これは理にかなっていますか、それともt-sneの設定に反しますか？

19 data-visualization dimensionality-reduction multidimensional-scaling tsne

1

t-SNEを適用する前に、データを中央揃え+スケーリングする必要がありますか？

一部のデータの機能には大きな値があり、他の機能にはもっと小さな値があります。大きな値への偏りを防ぐために、t-SNEを適用する前にデータを中央+スケールする必要がありますか？ Pythonのsklearn.manifold.TSNE実装をデフォルトのユークリッド距離メトリックとともに使用します。

18 normalization dimensionality-reduction high-dimensional tsne

2

t-SNEと比較した、UMAPの動作の直観的な説明

分子生物学の博士号を持っています。私の研究は最近、高次元のデータ分析を伴うようになりました。t-SNEがどのように機能するかはわかりましたが（YouTubeのStatQuestビデオのおかげです）、UMAPを思い巡らすことはできません（UMAPクリエーターの話をオンラインで聞いていましたが、簡単に理解できませんでした）。私はそれを説明する元の論文に戻りましたが、それは私にとってはあまりにも多くの数学でした。誰かが問題についていくつかの光を当てることができますか？上記のリンクされたStatQuestビデオと同様に、私は直観的な説明を探しています。

18 dimensionality-reduction intuition tsne

4

「次元の呪い」は実際のデータに本当に存在しますか？

「次元の呪い」とは何かを理解し、高次元の最適化問題をいくつか実行し、指数関数的可能性の課題を知っています。しかし、ほとんどの現実世界のデータに「次元の呪い」が存在するかどうかは疑わしい（画像やビデオはしばらく置いておきましょう。顧客の人口統計データや購入行動データなどのデータについて考えています）。数千の機能を持つデータを収集することはできますが、機能が数千の次元を持つ空間に完全に広がることはほとんど不可能です。これが、次元削減手法が非常に人気がある理由です。言い換えると、データには指数レベルの情報が含まれていない可能性が非常に高いです。つまり、多くの特徴が高度に相関しており、多くの特徴が80〜20のルールを満たしています。そのような場合、KNNのようなメソッドはまだ十分に機能すると思います。（ほとんどの本では、「次元の呪い」は次元> 10が問題になる可能性があると述べています。デモでは、エントロピーが非常に高いすべての次元で均一分布を使用します。私の実際のデータの経験では、「次元の呪い」はテンプレートメソッド（KNNなど）にあまり影響を与えず、ほとんどの場合、次元〜100でも機能します。これは他の人にも当てはまりますか？（私は本で説明されているように、「すべての距離のペアが同様の値を持っている」ということを観察したことはありませんでした。

17 clustering dimensionality-reduction high-dimensional

4

SVD / PCAの変数の「正規化」

我々が持っていると仮定測定可能な変数、、我々は数やる、測定のをしてから実行したい特異値分解をするために最高の分散の軸を見つけるために、結果にポイント次元空間。（注：の平均はすでに減算されていると仮定しているため、すべてのについてです。）（1、2、... 、N）M > N M N A I ⟨ A I ⟩ = 0 INNN(a1,a2,…,aN)(a1,a2,…,aN)(a_1, a_2, \ldots, a_N)M>NM>NM > NMMMNNNaiaia_i⟨ai⟩=0⟨ai⟩=0\langle a_i \rangle = 0iii ここで、変数の1つ（またはそれ以上）が、他と大きく異なる特性の大きさを持っていると仮定します。たとえば、値はの範囲で、残りはです。これにより、分散が最も大きい軸がの軸に向かって大きくます。 10 − 100 0.1 − 1 a 1a1a1a_110−10010−10010-1000.1−10.1−10.1-1a1a1a_1 大きさの違いは、測定単位の不幸な選択のためかもしれません（たとえば、物理データ、たとえばキロメートルとメートルの場合）が、実際には異なる変数はまったく異なる次元（たとえば、重量と体積）を持っている可能性があります。それらに「同等の」ユニットを選択する明白な方法はないかもしれません。質問：この問題を回避するためにデータを正規化する標準/一般的な方法が存在するかどうかを知りたいです。私は、何か新しいものをよりも、この目的のために匹敵する大きさを生成する標準的な手法にもっと興味を持っています。a1−aNa1−aNa_1 - a_N 編集： 1つの可能性は、各変数をその標準偏差または同様のもので正規化することです。ただし、次の問題が発生します。データを次元空間の点群として解釈してみましょう。この点群は回転させることができ、このタイプの正規化は、回転に応じて（SVD後の）最終結果が異なります。（例えば、最も極端な場合、データを正確に回転させて主軸を主軸に合わせると想像してください。）NNN これを行うための回転不変の方法はないだろうと期待していますが、特に結果の解釈の警告に関して、誰かがこの問題についての文献の議論を指摘してくれれば幸いです。

17 pca data-transformation normalization dimensionality-reduction svd

タグ付けされた質問 「dimensionality-reduction」

タグ付けされた質問「dimensionality-reduction」