タグ付けされた質問 「pca」

主成分分析(PCA)は、線形次元削減手法です。これは、多変量データセットを、できるだけ多くの情報(できるだけ多くの分散)を維持する、構築された変数のより小さなセットに削減します。主成分と呼ばれるこれらの変数は、入力変数の線形結合です。

3
データの実際の次元を視覚化する方法は?
名目上16次元のデータセットがあります。あるケースでは約100個、別のケースでは約20,000個のサンプルがあります。PCAとヒートマップを使用して行ったさまざまな探索的分析に基づいて、真の次元(つまり、「信号」のほとんどをキャプチャするために必要な次元の数)は約4であると確信しています。スライドを作成して、プレゼンテーションのためのその効果。私が反証しようとしているこのデータについての「従来の知恵」は、真の次元が1つまたは2つであるということです。 データセットの実際の次元を示すための優れた単純な視覚化とは何ですか?できれば、統計にある程度の経歴はあるが「実際の」統計学者ではない人にも理解できるようにしてください。

5
ベイズ因子分析に関する論文?
私は、因子分析のようなモデルを資産の収益や他の同様の潜在変数モデルに当てはめることに興味があります。このトピックについて読むのに適した紙は何ですか?因子分析モデルが「因子負荷」の符号変更の下で同一であるという事実を処理する方法に特に興味があります。

4
PCAの第1因子によって説明される分散が反復測定条件間で異なるかどうかをテストする方法は?
環境: 2つの反復測定実験条件(n = 200)のそれぞれで6つの数値変数が測定される研究があります。条件を呼び出しましょうAAAおよびと変数および。理論的には、条件では、変数の分散が主成分分析(PCA)の最初の要素によって説明されるはずだと私は予想しています。BBBA1,A2,...,A6A1,A2,...,A6A_1, A_2,..., A_6B1,B2,...,B6B1,B2,...,B6B_1, B_2,..., B_6BBB 一般的な値は次のとおりです。 のPCAの第1因子は、分散の30%を占めますA1,...,A6A1,...,A6A_1, ..., A_6 のPCAの第1因子は 、分散の40%を占めます。B1,...,B6B1,...,B6B_1, ..., B_6 質問: この違いが統計的に有意であるかどうかをどのようにテストできますか? これはどのようにRに実装できますか?

5
既知のクラスターの分離を最大化するための次元削減手法?
それで、R ^ nにたくさんのデータポイントがあるとします。nはかなり大きい(50など)。このデータは3つのクラスターに分類され、各データポイントがどのクラスターに属しているかがわかります。私がやりたいのは、これらのクラスターを2Dで視覚化して、クラスター間の分離を最大化することです。Rのデータポイントの位置に基づいてクラスターが簡単に分離できることを証明することが目標です。 ^ nだけ。 これまで私がこれまで行ってきた方法は、データポイントでPCA変換を実行し、クラスターがかなりきれいに分離されているように見えるまでPCのペアをランダムに視覚化することです。このアプローチはかなりアドホックに思えますが、全体的な分散を最大化する代わりに、クラスター間の分離を最大化するPCAスタイルのデータのローテーションを見つける簡単な方法があるはずです。 これを行う標準的な技術はありますか?そうでない場合、そのような変換を作成する方法についてのアイデアはありますか?

1
判別式を散布図の線としてプロットする
データ散布図が与えられると、主成分スコアである点で並べられた軸としてデータの主成分をプロットできます。雲(2つのクラスターからなる)とその最初の主成分のプロット例を見ることができます。簡単に描くことができます。生のコンポーネントスコアは、データマトリックスx固有ベクトルとして計算されます。元の軸(V1またはV2)上の各スコアポイントの座標は、スコアx cos-between-the-axis-and-the-component(固有ベクトルの要素)です。 私の質問:なんとかして同様の方法で判別式を描くことは可能ですか?私の写真を見てください。次に、2つのクラスター間の判別を、判別スコア(判別分析後)をポイントとして並べた線としてプロットします。はいの場合、アルゴは何でしょうか?

1
なぜ多くの問題があるときにPCAを使用するのですか?
(これは簡単な質問です)最近、主成分分析を学んでいますが、多くの問題があるようです: PCAを適用する前に、データをほぼ同じスケールに変換する必要がありますが、機能スケーリングの実行方法は指定されていません。標準化?ユニット長へのスケーリング?対数変換?Box-Cox変換?私はそれらのすべてが何らかの方法で機能すると信じていますが、それらはさまざまな質問に答えます。そして、問題が与えられたときの変化を理解することは重要です。 PCAを実行するには、固有値と固有ベクトルを計算する必要がありますが、固有ベクトルの符号は不明です。一見すると、SVDは異なる実装間で同じ結果をもたらすため、優れたソリューションである可能性があります。しかし、私が理解しているように、SVDの結果は、任意の、しかし再現可能な固有ベクトルの選択にすぎません。 主成分は変数の線形結合ですが、意味がありますか?つまり、サルの体温は単位が異なるため、尾の長さの10倍にはできません。(単位といえば、どちらの単位系を使うべきかということは、私の最初のポイントの別の側面です) 主成分を解釈しようとするとき、番目の要素上の番目の主成分の負荷(係数)、またはそれらの相関を検査する必要がありますか?レンチャー(1992)は、係数のみを見ることを推奨していますが、私の知る限り、この問題についてコンセンサスはありません。iiiyiyiy_ijjjXjXjX_jcorr(yi,Xj)corr(yi,Xj)\text{corr}(y_i, X_j) 要約すると、PCAはプロセス全体に多数の主観性とバイアスを導入するため、私には非常に未熟に見える統計的(または間違いなく数学的)メソッドです。それにもかかわらず、それは依然として最も広く使用されている多変量分析法の1つです。それはなぜです?私が提起した問題を人々はどのように克服しますか?彼らも気づいていますか? 参照: レンチャー、AC「正準判別関数、正準変量および主成分の解釈」アメリカ統計学者、46(1992)、217–225。

2
PCA固有ベクトルが直交しているが相関しているのはなぜですか?
私は、PCAを説明する素晴らしい記事をいくつか見たことがあります。このアプローチでは、(対称)相関行列の固有ベクトルが直交しているのはなぜですか。また、そのようなベクトルが互いに直交していることを示す方法も理解しています(たとえば、これらの固有ベクトルの行列のクロス積をとると、非対角要素がゼロの行列になります)。 私の最初の質問は、PCAの固有ベクトルの相関関係を調べたときに、相関行列の非対角要素が非ゼロである理由です(つまり、固有ベクトルが直交している場合、どのように相関させることができますか)。 この質問はPCAに直接関係するものではありませんが、私がこの問題に遭遇した方法であるため、この文脈に入れました。PCAを実行するために、R、特にpsychパッケージを使用しています。 例が役立つとしたら、StackOverflowに関するこの投稿には、非常に便利で関連性の高い記事があります(これもRで)。この投稿では、ベストアンサーの作成者は、PCAの負荷(固有ベクトル)がFactor Congruenceまたはクロス積を使用して直交していることを示しています。彼の例では、行列LはPCA負荷行列です。このリンクにない唯一のことはcor(L)、固有ベクトル間の非ゼロ相関を示すことについて私が尋ねている出力を生成することです。 この投稿を読んだ後、直交ベクトルをどのように相関させることができるかについて特に混乱しています。これは、直交性が相関の欠如と同等であることを証明しているようです:なぜPCA固有ベクトルは直交しており、PCAスコアとの相関関係は無相関ですか? 私の2番目の質問は、PCA固有ベクトルを使用してPCAスコアを計算する場合、スコア自体は(予想どおり)無相関です...これについての最初の質問への接続はありますか?なぜ固有ベクトルは相関するがスコアは相関しないのですか?

1
PCAはICAと同様にCCAに対するものですか?
PCAは、説明された分散を最大化するデータの要因を探します。正準相関分析(CCA)は、私が理解している限り、PCAに似ていますが、2つのデータセット間の相互共分散を最大化する要因を探します。したがって、2つのデータセットに共通するPCAのような要素を見つけます。 独立成分分析(ICA)はPCAに似ていますが、統計的に独立している要因を探します。これにより、何らかの意味で、より解釈可能な要因が生まれます。例えば、遺伝子経路、脳ネットワーク、顔の一部。または、データを生成するために混合される独立したソースを識別すると言うことができます。 PCAがCCAと同様に、ICAと同様の方法はありますか?それでは、2つのデータセットに共通する独立したコンポーネントを見つけるでしょうか?結果は実際に理にかなっていますか?

2
PCA固有ベクトルが直交している理由と、PCAスコアとの相関関係は何ですか?
私はPCAについて読んでいますが、固有ベクトルは直交である必要があるという前提と、相関関係のない投影(PCAスコア)との関係を除いて、派生に関して何が起こっているのかを理解していますか?以下に、直交性と相関関係のリンクを使用する2つの説明がありますが、実際には説明できません:ONE、TWO。 2番目の図では 、投影がと無相関になるように、条件が課されていることをます。直交ベクトルが無相関変数を保証する理由を示す例を誰かが提供できますか?aT2a1=0a2Ta1=0a_{2}^{T}a_{1}=0y2=Xa2y2=Xa2y_{2}=Xa_2y1=Xa1y1=Xa1y_{1}=Xa_1 直交していないベクトルを選択した場合、PCAで何が起こりますか。これは可能ですか?直交性は、共分散行列が対称的であることの副産物であることを別の場所で読んだことがあります。これは、非ペアワイズ直交固有ベクトルを持つことが不可能であることを示唆します。ただし、最も「適切な」行列を探す最初の図では、を直交に選択して、より便利な行列選択しているように見えます。素敵な特性を持っています。p1,…,pmp1,…,pmp_{1},\ldots,p_{m}PP\textbf{P} 私はこのトピックに関する他の投稿を読みましたが、無相関変数による直感の組み込みには満足できません。私はこの混乱を理解する助けを本当に感謝します!!

1
PCAで、2つの母集団の分離を最大化するために変数を削除する体系的な方法はありますか?
私は主成分分析を使用して、新しいデータポイントがどの母集団( "Aurignacian"または "Gravettian")からのものであるかを確信を持って推測できるかどうかを調査しています。データポイントは28の変数で記述され、そのほとんどは考古学上の人工物の相対的な頻度です。残りの変数は、他の変数の比率として計算されます。 すべての変数を使用して、母集団は部分的に分離されます(サブプロット(a))が、それらの分布にはまだ重複があります(90%のt分布予測楕円、母集団の正規分布を想定できるかどうかはわかりません)。したがって、新しいデータポイントの起源を確信を持って予測することは不可能だと思いました。 1つの変数(r-BE)を削除すると、対になったPCAプロットで母集団が分離されないため、オーバーラップがはるかに重要になります(サブプロット(d)、(e)、および(f))。1-2、3- 4、...、25-26、および1-27。これは、2つの母集団を分離するためにr-BEが不可欠であることを意味します。これらをまとめると、これらのPCAプロットはデータセット内の「情報」(分散)の100%を表すと考えたからです。 したがって、私は、ほんの一握りの変数を除いてすべてを削除した場合、母集団が実際にはほぼ完全に分離したことに気づいて、非常に驚​​きました。 すべての変数に対してPCAを実行すると、このパターンが表示されないのはなぜですか?28個の変数を使用すると、268,435,427通りの方法で変数をドロップできます。人口分離を最大化し、新しいデータポイントの起源の人口を推測するのに最適なものをどのように見つけることができますか?より一般的には、このような「隠された」パターンを見つける体系的な方法はありますか? 編集:アメーバのリクエストに従って、PCをスケーリングしたときのプロットを以下に示します。パターンはより明確です。(私は変数をノックアウトし続けることでいたずらであることを認識していますが、今回のパターンはr-BEのノックアウトに抵抗し、「非表示」パターンがスケーリングによってピックアップされることを意味します):


3
ニューラルネットワークで分類する前に画像データセットでPCAを使用する
画像データマトリックスがあります バツ∈RN x p X∈ℜN x pX \in \Re^{N \ \text{x}\ p} どこ N= 50000N=50000N=50000 画像の例の数であり、 p = 3072p=3072p=3072 画像のピクセル数です。 p = 3072 = 32 × 32 × 3p=3072=32×32×3p = 3072 = 32 \times 32 \times 3、各画像は3チャンネルであるため 32 × 3232×3232 \times 32画像。さらに、50000の画像のそれぞれは、10の可能なクラスの1つに属しています。つまり、クラス ' car'の5000個の画像、クラス ' 'の5000個の画像birdなどがあり、合計10個のクラスがあります。これはCIFAR-10データセットの一部です。 ここでの最終的な目標は、このデータセットで分類を実行することです。この目的のために、教授はこれについてPCAを試し、それらの機能を分類子に配置することを述べました。私の分類子として、1つの非表示レイヤーとsoftmax出力を持つ完全に接続されたニューラルネットワークを使用しています。 私の問題は、私がPCAを正しい方法で実行したと信じていることですが、私の方法が誤って適用されている可能性があると思います。 これは私がやったことです: 私のデータのPCAを計算するために、これは私がこれまでに行ったことです: …

1
部分最小二乗、減少ランク回帰、および正準相関分析の確率モデル?
この質問は、前の質問に続く議論の結果です。部分最小二乗、縮小ランク回帰、および主成分回帰の間の接続は何ですか? 主成分分析の場合、一般的に使用される確率モデルはx=λ−−√wz+ϵ∈Rp,x=λwz+ϵ∈Rp,\mathbf x = \sqrt{\lambda} \mathbf{w} z + \boldsymbol \epsilon \in \mathbb R^p,、z∼N(0,1)z∼N(0,1)z\sim \mathcal N(0,1)、w∈Sp−1w∈Sp−1\mathbf{w}\in S^{p-1}、λ>0λ>0\lambda > 0、およびϵ∼N(0,Ip)ϵ∼N(0,Ip)\boldsymbol\epsilon \sim \mathcal N(0,\mathbf{I}_p)。次に、\ mathbf {x}の母共分散xx\mathbf{x}はλwwT+IpλwwT+Ip\lambda \mathbf{w}\mathbf{w}^T + \mathbf{I}_p、つまりx∼N(0,λwwT+Ip).x∼N(0,λwwT+Ip).\mathbf{x}\sim \mathcal N(0,\lambda \mathbf{w}\mathbf{w}^T + \mathbf{I}_p).目標は\ mathbf {w}を推定することですww\mathbf{w}。これはスパイク共分散モデルと呼ばれ、PCA文献で頻繁に使用されます。真の\ mathbf {w}を推定する問題は、単位球上の\ mathbf {w}より\ operatorname {Var}(\ mathbf {Xw})をww\mathbf{w}最大化することで解決できます。Var(Xw)Var⁡(Xw)\operatorname{Var} (\mathbf{Xw})ww\mathbf{w} @amoebaによる前の質問への回答で指摘されているように、ランク回帰の減少、部分最小二乗法、および正準相関分析には、密接に関連した定式化があります。 PCA:RRR:PLS:CCA:Var(Xw),Var(Xw)⋅Corr2(Xw,Yv)⋅Var(Yv),Var(Xw)⋅Corr2(Xw,Yv)⋅Var(Yv)=Cov2(Xw,Yv),Var(Xw)⋅Corr2(Xw,Yv).PCA:Var⁡(Xw),RRR:Var⁡(Xw)⋅Corr2⁡(Xw,Yv)⋅Var⁡(Yv),PLS:Var⁡(Xw)⋅Corr2⁡(Xw,Yv)⋅Var⁡(Yv)=Cov2⁡(Xw,Yv),CCA:Var⁡(Xw)⋅Corr2⁡(Xw,Yv).\begin{align} \mathrm{PCA:}&\quad \operatorname{Var}(\mathbf{Xw}),\\ \mathrm{RRR:}&\quad \phantom{\operatorname{Var}(\mathbf {Xw})\cdot{}}\operatorname{Corr}^2(\mathbf{Xw},\mathbf {Yv})\cdot\operatorname{Var}(\mathbf{Yv}),\\ …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.