統計とビッグデータ pca

1

この記事では、著者は線形判別分析（LDA）を主成分分析（PCA）にリンクします。私の知識が限られているため、LDAがPCAといくぶん類似していることを理解することはできません。 LDAは、ロジスティック回帰と同様の分類アルゴリズムの一種であると常に考えてきました。LDAがPCAにどのように似ているか、つまり、次元削減手法であるLDAがどのように理解されているかを理解する上で、私はいくらか感謝します。

19 classification pca dimensionality-reduction discriminant-analysis canonical-correlation

1

サブジェクト（デュアル）スペースでのPCAの幾何学的理解

私は、主成分分析（PCA）がサブジェクト（デュアル）スペースでどのように機能するかを直感的に理解しようとしています。 2つの変数と、およびデータポイント（データ行列はあり、中心にあると想定される）を含む2Dデータセットを考えます。PCAの通常の表現は、点を考慮し、共分散行列を書き留め、その固有ベクトルと固有値を見つけることです。最初のPCは最大分散の方向などに対応します。これは共分散行列です。赤い線は、それぞれの固有値の平方根でスケーリングされた固有ベクトルを示しています。x1x1x_1x2x2x_2nnnXX\mathbf Xn×2n×2n\times 2nnnR2R2\mathbb R^22×22×22\times 2C=(4222)C=(4222)\mathbf C = \left(\begin{array}{cc}4&2\\2&2\end{array}\right) \hskip 1in 次に、デュアルスペース（機械学習で使用される用語）とも呼ばれる、対象空間（@ttnphnsからこの用語を学びました）で何が起こるかを考えます。これは、2つの変数のサンプル（ 2列）が2つのベクトルおよび形成する次元空間です。各可変ベクトルの長さの2乗はその分散に等しく、2つのベクトル間の角度のコサインはそれらの間の相関に等しくなります。ちなみに、この表現は重回帰の処理において非常に標準的です。私の例では、対象空間は次のようになります（2つの変数ベクトルにまたがる2D平面のみを表示しています）。X x 1 x 2nnnXX\mathbf Xx1x1\mathbf x_1x2x2\mathbf x_2 \hskip 1in 2つの変数の線形結合である主成分は、同じ平面で2つのベクトルおよびします。私の質問は、そのようなプロットで元の変数ベクトルを使用して主成分変数ベクトルを形成する方法の幾何学的な理解/直感は何ですか？と与えられた場合、を生成する幾何学的な手順は何ですか？p 2 x 1 x 2 p 1p1p1\mathbf p_1p2p2\mathbf p_2x1x1\mathbf x_1x2x2\mathbf x_2p1p1\mathbf p_1 以下は私の現在の部分的な理解です。まず、標準的な方法で主成分/軸を計算し、同じ図にプロットします。 \hskip 1in また、は、（青いベクトル）と上の投影の距離の二乗の合計が最小になるように選択されていることに注意できます。これらの距離は再構成エラーであり、黒い破線で示されています。同様に、は、両方の投影の長さの2乗の合計を最大化します。これは、を完全に指定し、もちろん、プライマリ空間での同様の説明に完全に類似しています（主成分分析、固有ベクトル、固有値の理解に対する私の回答のアニメーションを参照）。こちらの@ttnphnsの回答の最初の部分もご覧ください。x i p 1 p 1 p 1p1p1\mathbf p_1xixi\mathbf x_ip1p1\mathbf p_1p1p1\mathbf …

19 pca linear-algebra intuition geometry

2

時系列データでPCAを解釈する方法は？

私は、「クラスタは、コンピューティングとスケールでマッピング脳活動」と題した最近の雑誌の記事でPCAの使用を理解しようとしていますフリーマンら、2014（無料のPDF ラボのウェブサイトで入手可能）。彼らは、時系列データに対してPCAを使用し、PCAの重みを使用して脳のマップを作成します。データは（と呼ばれる行列として記憶試験平均撮像データであるYを有する紙で）n個のボクセル（または脳の撮像位置）× Tの時点（脳への単一刺激の長さ）。Y^Y^\hat {\mathbf Y}nnn×t^×t^\times \hat t 彼らは、その結果SVD使用Y = U S V ⊤（V ⊤行列の転置を表すVを）。Y^=USV⊤Y^=USV⊤\hat {\mathbf Y} = \mathbf{USV}^\topV⊤V⊤\mathbf V^\topVV\mathbf V 著者は、主成分（の列）長さのベクトルであり、T、及びスコア（の列Uは）長さのベクトルであるN個の対応するコンポーネントによって与えられた方向に各ボクセルの投影を説明する、（ボクセル数）、ボリューム上に投影、つまり全脳マップを形成します。VV\mathbf Vt^t^\hat tUU\mathbf Unnn だから、PCは、長さのベクトルですトン。PCAのチュートリアルで一般的に表現されているように、「最初の主成分がほとんどの分散を説明する」と解釈するにはどうすればよいですか？多くの高度に相関した時系列のマトリックスから始めました-単一のPC時系列は元のマトリックスの分散をどのように説明しますか？私は「最も多様な軸への点のガウス雲の回転」のこと全体を理解していますが、これが時系列にどのように関係するかはわかりません。著者は、「スコア（Uの列）は長さnのベクトルである」と述べるとき、方向によって何を意味しますかt^t^\hat tUU\mathbf Unnn （ボクセルの数）、対応するコンポーネントによって与えられる方向への各ボクセルの投影を記述します」？主成分の時間経過はどのように方向を持つことができますか？主成分1と2の線形結合と関連する脳マップから得られる時系列の例を見るには、次のリンクに移動し、XYプロットのドットにマウスを合わせます。 2番目の質問は、主成分スコアを使用して作成する（状態空間）軌跡に関連しています。これらは、（私は上に概説した「微細運動」の例の場合）を最初の2項目を取ることによって作成され、式により主要部分空間への（上記試験平均行列を作成するために使用される）は、個々の試験を投影している：J = U⊤Y。J=U⊤Y.\mathbf J = \mathbf U^\top \mathbf Y. リンクされた映画でわかるように、状態空間の各トレースは、脳全体の活動を表しています。最初の2台のPCのスコアのXYプロットを関連付ける図と比較して、状態空間ムービーの各「フレーム」が何を意味するかについて、誰かが直感を提供できますか。実験の1回の試行がXY状態空間の1つの位置にあり、別の試行が別の位置にある特定の「フレーム」で何を意味しますか？映画のXYプロットの位置は、私の質問の最初の部分で述べたリンクされた図の主成分トレースとどのように関係しますか？

19 time-series pca state-space-models neuroimaging neuroscience

1

PCAがよりよく説明された分散比を与える前にデータを正規化しない

データセットを正規化した後、3つのコンポーネントPCAを実行して、小さな説明付き分散比（[0.50、0.1、0.05]）を取得しました。データセットを正規化せずにデータセットを白色化して3コンポーネントPCAを実行すると、説明された分散比が高くなりました（[0.86、0.06,0.01]）。できるだけ多くのデータを3つのコンポーネントに保持したいので、データを正規化してはいけませんか？私の理解では、PCAの前に常に正規化する必要があります。正規化により：平均を0に設定し、単位分散を持ちます。

19 pca

2

同じデータセットに対するPCAと探索的因子分析：相違点と類似点。因子モデルとPCA

同じデータセットに対して主成分分析（PCA）と探索的因子分析（EFA）を実行することが論理的に意味があるかどうかを知りたいです。専門家が明示的に推奨することを聞いたことがあります：分析の目的が何であるかを理解し、データ分析にPCAまたはEFAを選択します。 1つの分析を行った後、他の分析を行う必要はありません。私はこの2つの動機付けの違いを理解していますが、PCAとEFAが同時に提供する結果の解釈に何か問題があるのではないかと思っていましたか？

19 pca factor-analysis

3

リッジ回帰とPCA回帰の関係

私はウェブ上のどこかでリッジ回帰（正則化）とPCA回帰の関係を読んだことを覚えています：ハイパーパラメーターで -regularized回帰を使用している場合、場合、回帰は最小の固有値を持つPC変数。ℓ 2 λℓ2ℓ2\ell_2ℓ2ℓ2\ell_2λλ\lambdaλ → 0λ→0\lambda \to 0 なぜこれが本当ですか？これは最適化手順と関係がありますか？単純に、私はそれがOLSと同等であると予想していました。誰かがこれに関するリファレンスを持っていますか？

19 regression pca regularization ridge-regression

1

PCAバイプロット上の矢印の配置

JavaScriptで主成分分析（PCA）のバイプロットを実装したいと考えています。私の質問は、データ行列の特異ベクトル分解（SVD）の出力から矢印の座標をどのように決定するのですか？U,V,DU,V,DU,V,D Rが生成するバイプロットの例を次に示します。 biplot(prcomp(iris[,1:4])) 私はそれを見上げてみましたバイプロット上のWikipediaの記事が、それは非常に便利ではありません。または修正します。どっちがわからない。

18 pca svd biplot

1

凸状混合物のブラインドソース分離？

私があるとしの独立したソースを、私は観察凸混合物： X 1、X 2、。。。、X n m Y 1nnnバツ1、X2、。。。、Xnバツ1、バツ2、。。。、バツnX_1, X_2, ..., X_nmmmY1。。。Ym= a11バツ1+ a12バツ2+ ⋯ + a1 nバツn= am 1バツ1+ am 2バツ2+ ⋯ + am nバツnY1=a11バツ1+a12バツ2+⋯+a1nバツn。。。Ym=am1バツ1+am2バツ2+⋯+amnバツn\begin{align} Y_1 &= a_{11}X_1 + a_{12}X_2 + \cdots + a_{1n}X_n\\ ...&\\ Y_m &= a_{m1}X_1 + a_{m2}X_2 + \cdots + a_{mn}X_n \end{align} すべてのため及び全てについて。∑ja私j= 1∑ja私j=1\sum_j a_{ij} = 1私私ia私はj≥ …

18 pca ica

1

主成分分析を使用してデータを白くするには？

データを変換したいバツX\mathbf X分散が1で共分散がゼロになるようにます（つまり、データを白色化します）。さらに、平均はゼロでなければなりません。私はZ標準化とPCA変換を行うことでそこに到達することを知っていますが、どの順序でそれらを行うべきですか？合成されたホワイトニング変換の形式はなければなりません。X ↦Wx + bx↦Wx+b\mathbf{x} \mapsto W\mathbf{x} + \mathbf{b} これらの変換を正確に行い、上記の形式の式を提供するPCAに似た方法はありますか？

18 pca linear-algebra

1

PCAで「プリンシパルコンポーネント」と正確に呼ばれるものは何ですか？

仮定デザイン行列とのデータの投影の分散最大化するベクトルである。uuuXXX ここで、uuuをデータの（最初の）主成分として参照する資料を見ました。これは最大の固有値を持つ固有ベクトルでもあります。ただし、データの主成分はXuXuX u。明らかに、uuuとXuXuXuは異なるものです。誰でもここで私を助けて、主成分のこれら2つの定義の違いを教えてもらえますか？

18 pca terminology definition

2

PCAの低分散成分、それらは本当に単なるノイズですか？それをテストする方法はありますか？

PCAのコンポーネントを保持するかどうかを決定しようとしています。固有値の大きさに基づいて、ここやここなどで説明され、比較される膨大な数の基準があります。ただし、私のアプリケーションでは、small（est）固有値はlarge（st）固有値と比較して小さくなり、大きさに基づく基準はすべてsmall（est）固有値を拒否することを知っています。これは私が望むものではありません。私が興味を持っているのは、ある意味で、小さな固有値の実際の対応する要素を考慮する既知の方法がありますか？それは、すべての教科書で暗示されているように本当に「ちょうど」ノイズか、潜在的な「何か」がありますか興味が残った？それが本当にノイズである場合、固有値の大きさに関係なく、それを削除し、そうでなければそれを保持します。見つけられないPCAのコンポーネントに対して、何らかの確立されたランダム性または分布テストがありますか？それとも、これがばかげたアイデアになる理由を誰かが知っていますか？更新 2つのユースケースのコンポーネントのヒストグラム（緑）と通常の近似（青）：かつては本当にノイズ、おそらくは「ジャスト」ノイズではない（そう、値は小さいが、おそらくランダムではない）。どちらの場合も最大の特異値は〜160であり、最小、つまりこの特異値は0.0xxです。どのカットオフ方法にも小さすぎます。私が探しているのは、これを形式化する方法です...

18 pca

2

PCAバイプロットの4つの軸は何ですか？

PCA分析のバイプロットを作成すると、x軸に主成分PC1スコア、y軸にPC2スコアがあります。しかし、画面の右側と上部にある他の2つの軸は何ですか？

18 r pca biplot

1

カーネルPCAの標準PCAに対する利点は何ですか？

カーネルSVDを使用してデータ行列を分解する論文にアルゴリズムを実装したい。そのため、カーネルメソッドやカーネルPCAなどに関する資料を読んでいます。しかし、特に数学的な詳細に関しては非常にわかりにくいので、いくつか質問があります。カーネルメソッドを使用する理由または、カーネルメソッドの利点は何ですか？直感的な目的は何ですか？非カーネル法と比較して、実世界の問題でははるかに高い次元空間がより現実的であり、データ内の非線形関係を明らかにできると仮定していますか？資料によると、カーネルメソッドは、データを高次元の特徴空間に投影しますが、新しい特徴空間を明示的に計算する必要はありません。代わりに、特徴空間内のデータポイントのすべてのペアの画像間の内積のみを計算すれば十分です。では、なぜ高次元の空間に投影するのでしょうか？それどころか、SVDは機能スペースを削減します。なぜ彼らは異なる方向でそれを行うのですか？カーネルメソッドはより高い次元を求め、SVDはより低い次元を求めます。私には、それらを組み合わせるのは奇妙に聞こえます。私が読んでいる論文（Symeonidis et al。2010）によると、SVDの代わりにカーネルSVDを導入すると、データのスパース性の問題に対処でき、結果が改善されます。図の比較から、KPCAがPCAよりも高い分散（固有値）の固有ベクトルを取得していることがわかります。固有ベクトルへの点の射影の最大差（新しい座標）については、KPCAは円であり、PCAは直線であるため、KPCAはPCAよりも大きな分散を取得します。それで、それはKPCAがPCAよりも高い主成分を取得するということですか？

18 pca svd kernel-trick

1

外れ値検出のための堅牢なPCAと堅牢なマハラノビス距離

堅牢なPCA（Candes et al 2009またはNetrepalli et al 2014 によって開発された）は多変量異常値検出の一般的な方法ですが、マハラノビス距離は、共分散行列の堅牢で正規化された推定値が与えられると、異常値検出にも使用できます。私は、あるメソッドを他のメソッドよりも使用することの（不利な）利点に興味があります。私の直感では、2つの最大の違いは次のとおりであることがわかります。データセットが（統計的な意味で）「小さい」場合、ロバストPCAは低いランクの共分散を提供し、代わりにロバストな共分散行列推定は完全なLedoit-Wolf正則化によるランク共分散。これはどのように異常値の検出に影響しますか？

17 pca outliers covariance-matrix robust anomaly-detection

1

変数とPCAコンポーネント（バイプロット/ローディングプロット上）との適切な関連付けの尺度は何ですか？

私はFactoMineR、測定値のデータセットを潜在変数に減らすために使用しています。上記の変数のマップは私が解釈するのは明らかであるが、それは、変数マップを見て、変数と部品1の間の関連付けに来るとき、私は混乱しています、ddpとcov非常に近いマップ内のコンポーネントにある、とddpAbs少し遠いです離れて。しかし、これは相関関係が示すものではありません： $Dim.1 $Dim.1$quanti correlation p.value jittAbs 0.9388158 1.166116e-11 rpvi 0.9388158 1.166116e-11 sd 0.9359214 1.912641e-11 ddpAbs 0.9327135 3.224252e-11 rapAbs 0.9327135 3.224252e-11 ppq5 0.9319101 3.660014e-11 ppq5Abs 0.9247266 1.066303e-10 cov 0.9150209 3.865897e-10 npvi 0.8853941 9.005243e-09 ddp 0.8554260 1.002460e-07 rap 0.8554260 1.002460e-07 jitt 0.8181207 1.042053e-06 cov5_x 0.6596751 4.533596e-04 ps13_20 -0.4593369 2.394361e-02 ps5_12 -0.5237125 …

17 correlation pca factor-analysis association-measure biplot

タグ付けされた質問 「pca」

タグ付けされた質問「pca」