タグ付けされた質問 「pca」

主成分分析(PCA)は、線形次元削減手法です。これは、多変量データセットを、できるだけ多くの情報(できるだけ多くの分散)を維持する、構築された変数のより小さなセットに削減します。主成分と呼ばれるこれらの変数は、入力変数の線形結合です。

1
通常のPCAと確率的PCAの違いは何ですか?
通常のPCAは観測データの確率モデルに従っていないことを知っています。それでは、PCAとPPCAの基本的な違いは何ですか?PPCAでは、潜在変数モデルには、たとえば、観測変数、潜在(観測されていない変数)、および通常のPCAのように正規直交である必要のない行列が含まれます。私が考えることができるもう1つの違いは、PPCAがデータの確率的分布を提供する場合に、通常のPCAは主成分のみを提供することです。yyyバツバツxWWW 誰かがPCAとPPCAの違いをもっと理解していただけますか?
15 pca 

2
PCA / FAから保持された複数の主成分または因子から単一のインデックスを作成する
主成分分析(PCA)を使用して、研究に必要なインデックスを作成しています。私の質問は、PCAで計算された保持主成分を使用して、単一のインデックスを作成する方法です。 たとえば、PCAを使用した後、3つの主成分を保持することにし、これら3つの主成分のスコアを計算しました。回答者ごとに、これら3つのスコアから単一のインデックスを作成する適切な方法は何ですか? 3つの計算されたスコアを追加して複合値を取得することは重要ですか? または、3つのスコアを平均してそのような値を得るには? または、最初の主成分(最強)のみを保持し、そのスコアをインデックスとして使用する必要がありますか? あるいは、因子分析(FA)を使用することもできますが、同じ質問が残ります。複数の因子スコアに基づいて単一のインデックスを作成する方法ですか?

1
設定での回帰:正則化方法(ラッソ、PLS、PCR、リッジ)の選択方法
私はのために行くかどうかを確認しようとしているリッジ回帰、LASSO、主成分回帰(PCR)、または部分最小二乗変数/機能(の数が多い状況で(PLS))およびサンプルの数が少ない(N < p)、私の目的は予測です。pppn<pn<pn np>10np>10np>10n 変数(およびY)は、異なる程度で互いに相関しています。XXXYYY 私の質問は、この状況に最適な戦略はどれですか?どうして?


5
重回帰を使用して、他の複数のPCから1つの主成分(PC)を予測できますか?
しばらく前、R-helpメーリングリストのユーザーが、回帰でPCAスコアを使用することの健全性について質問しました。ユーザーは、いくつかのPCスコアを使用して、別のPCのバリエーションを説明しようとしています(詳細については、こちらをご覧ください)。答えはいいえ、PCは互いに直交しているため、これは適切ではありません。 誰かがこれがなぜそうなのか、もう少し詳しく説明できますか?
15 regression  pca 

1
後の分析を行うために、PCAによって取得された必要な分散量はありますか?
11個の変数を含むデータセットがあり、データを削減するためにPCA(直交)が実行されました。保持するコンポーネントの数を決定することで、2つの主要なコンポーネント(PC)がデータを説明するのに十分であり、残りのコンポーネントはあまり有益ではないことが、主題とスクリープロット(下記参照)についての私の知識から明らかでした。 並列解析を使用したスクリープロット:観測された固有値(緑色)と100回のシミュレーションに基づくシミュレートされた固有値(赤色)。スクリープロットでは3台のPCが推奨されますが、パラレルテストでは最初の2台のPCのみが推奨されます。 ご覧のとおり、最初の2台のPCでキャプチャできるのは分散の48%だけです。 最初の2台のPCによって行われた最初の平面での観察結果をプロットすると、階層型凝集クラスタリング(HAC)とK-meansクラスタリングを使用した3つの異なるクラスターが明らかになりました。これらの3つのクラスターは、問題の問題に非常に関連していることが判明し、他の調査結果とも一致していました。そのため、分散の48%のみがキャプチャされたという事実を除いて、他のすべては非常に良好でした。 私の2人のレビュアーのうちの1人は言った:1つは48%の分散しか説明できず、それが必要とされるより少ないので、これらの発見にあまり頼ることができない。 質問 PCAが有効 にするためにどの程度の分散をキャプチャする必要があるかについて、必要な値はありますか?使用中のドメインの知識と方法論に依存していませんか?説明された分散の単なる値に基づいて、分析全体のメリットを判断できる人はいますか? ノート データは、リアルタイム定量ポリメラーゼ連鎖反応(RT-qPCR)と呼ばれる分子生物学の非常に感度の高い方法で測定された遺伝子の11変数です。 分析はRを使用して行われました。 マイクロアレイ分析、ケモメトリックス、分光分析などの分野での実際の問題に取り組んでいる個人的な経験に基づいたデータアナリストからの回答は大歓迎です。 可能な限り参考文献で回答をサポートすることを検討してください。
15 variance  pca 

1
lmerモデルに使用する多重比較方法:lsmeansまたはglht?
1つの固定効果(条件)と2つのランダム効果(被験者内のデザインとペアによる参加者)を含む混合効果モデルを使用して、データセットを分析しています。モデルはlme4パッケージで生成されました:exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp)。 次に、固定効果(条件)のないモデルに対してこのモデルの尤度比検定を実行しましたが、有意差があります。データセットには3つの条件があるため、多重比較を行いたいのですが、どの方法を使用すればよいかわかりません。CrossValidatedや他のフォーラムで同様の質問をいくつか見つけましたが、それでもかなり混乱しています。 私が見たものから、人々は使用することを提案しました 1.lsmeansパッケージ- lsmeans(exp.model,pairwise~condition)私に次のような出力が得られます。 condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts contrast estimate SE df t.ratio p.value Condition1 - Condition2 -0.04893538 0.03813262 62.07 -1.283 0.4099 Condition1 - …

1
相互情報行列の固有ベクトルの意味は何ですか?
共分散行列の固有ベクトルを見ると、最大分散の方向を取得します(最初の固有ベクトルは、データが最も大きく変化する方向などです)。これは、主成分分析(PCA)と呼ばれます。 相互情報行列の固有ベクトル/値を見るとどういう意味になるのだろうか、最大エントロピーの方向を指すのだろうか?

1
「因子分析の基本定理」はPCAにどのように適用されますか、またはPCAの負荷はどのように定義されますか?
現在、「因子分析」用のスライドセットを調べています(私が知る限り、PCA)。 その中で、「因子分析の基本定理」が導き出され、分析に入るデータの相関行列()は因子負荷の行列()を使用して回復できると主張しています。ARR\bf RAA\bf A R = A A⊤R=AA⊤\bf R = AA^\top しかし、これは私を混乱させます。PCAでは、「因子負荷」の行列は、データの共分散/相関行列の固有ベクトルの行列で与えられます(データが標準化されていると仮定しているため、それらは同じです)。長さ1。この行列は直交しているため、一般にと等しくないです。RA A⊤= 私AA⊤=私\bf AA^\top = IRR\bf R

2
バートレットのテストによって診断された球形度は、PCAが不適切であることを意味するのはなぜですか?
バートレットの検定は、サンプルが等分散の母集団からのものであるかどうかを判断することに関することを理解しています。 サンプルが等分散の母集団からのものである場合、検定の帰無仮説を棄却できないため、主成分分析は不適切です。 この状況(ホモスケダスティクスデータセットを持つ)の問題がどこにあるのかわかりません。すべてのデータの基礎となる分布が同じであるデータセットを持つことの問題は何ですか?この条件が存在する場合、私は大したことはありません。これによりPCAが不適切になるのはなぜですか? 私はオンラインのどこにも良い情報を見つけることができないようです。このテストがPCAに関連する理由を解釈した経験はありますか?

4
どの変数がどのPCAコンポーネントを説明し、その逆ですか?
このデータの使用: head(USArrests) nrow(USArrests) 私はこうしてPCAを行うことができます: plot(USArrests) otherPCA <- princomp(USArrests) 新しいコンポーネントを入手できます otherPCA$scores そして、コンポーネントによって説明される分散の割合 summary(otherPCA) しかし、どの変数がほとんどの主成分によって説明されているかを知りたい場合はどうすればよいですか?逆もまた同様です。たとえば、PC1またはPC2は主に説明されていmurderますか?これどうやってするの? たとえば、PC1の80%がmurderまたはで説明されていると言えますかassault? 私はここで負荷が私を助けると思うが、彼らは私がそれを理解するように説明された分散ではなく方向性を示す、例えば otherPCA$loadings Loadings: Comp.1 Comp.2 Comp.3 Comp.4 Murder 0.995 Assault -0.995 UrbanPop -0.977 -0.201 Rape -0.201 0.974

1
PCAバイプロットの矢印はどういう意味ですか?
次のPCAバイプロットを検討してください。 library(mvtnorm) set.seed(1) x <- rmvnorm(2000, rep(0, 6), diag(c(5, rep(1,5)))) x <- scale(x, center=T, scale=F) pc <- princomp(x) biplot(pc) たくさんの赤い矢印がプロットされていますが、それらはどういう意味ですか?「Var1」というラベルの付いた最初の矢印は、データセットの最もさまざまな方向を指している必要があることを知っていました(それらをそれぞれサイズ6のベクトルである2000データポイントと考える場合)。また、私はどこかから読んだ、最も変化する方向は、最初の固有ベクトルの方向でなければなりません。 ただし、Rのバイプロットのコードを読み取ります。矢印に関する行は次のとおりです。 if(var.axes) arrows(0, 0, y[,1L] * 0.8, y[,2L] * 0.8, col = col[2L], y固有ベクトル行列である実際の負荷行列はどこにありますか。したがって、最初の矢印が実際にから(0, 0)を指しているように見え(y[1, 1], y[1, 2])ます。高次元の矢印を2D平面にプロットしようとしていることを理解しています。これが、y[1, ]ベクトルの1番目と2番目の要素を取得する理由です。しかし、私が理解していないのは: 最初の固有ベクトルの方向は、y[, 1]ではなくで示されるベクトルではありy[1, ]ませんか?(これもyPCAまたはt(x) %*% x。の固有分解によって得られる固有ベクトル行列です。)固有ベクトルは、水平ベクトルではなく列ベクトルでなければなりません。 我々は2次元平面上にプロットされているにもかかわらず、我々からする第一の方向を描画する(0, 0)を指して(y[1, 1], y[2, 1])?
14 r  pca  linear-algebra  biplot 

3
PCAから得たものをどのように解釈できますか?
大学の課題の一部として、私はかなり巨大な多変量(> 10)生データセットでデータの前処理を行う必要があります。私はどんな意味でも統計学者ではないので、何が起こっているのか少し混乱しています。おそらく簡単に笑える質問に謝罪します。さまざまな答えを見て、統計情報を調べようとすると頭が回転します。 私はそれを読んだ: PCAにより、データの次元を減らすことができます これは、多くの相関関係がある(したがって、少し不必要な)属性/ディメンションをマージ/削除することによって行われます。 共分散データで固有ベクトルを見つけることでこれを行います(これを学ぶために私が従った素敵なチュートリアルのおかげです) それは素晴らしいです。 ただし、これを実際にデータにどのように適用できるのか、本当に苦労しています。たとえば、(これは私が使用するデータセットではありませんが、人々が作業できる適切な例の試みです)、次のようなデータセットがある場合... PersonID Sex Age Range Hours Studied Hours Spent on TV Test Score Coursework Score 1 1 2 5 7 60 75 2 1 3 8 2 70 85 3 2 2 6 6 50 77 ... ... ... ... ... ... ... …
14 pca 

2
CLR(集中ログ比変換)を使用してPCAのデータを準備できますか?
スクリプトを使用しています。コアレコード用です。特定の深さ(最初の列)の列に異なる元素組成を示すデータフレームがあります。PCAを実行したいのですが、選択しなければならない標準化方法について混乱しています。 あなたの誰もがのclr()ためにあなたのデータを準備するために使用しましたprcomp()か?または、ソリューションを悪化させますか。で属性スケールをclr()使用するprcomp()ことに加えて、関数を使用する前にデータのon を使用してみましたprcomp()。 data_f_clr<- clr(data_f) data_pca <- prcomp(data_f, center = TRUE, scale. = TRUE) https://stat.ethz.ch/R-manual/R-devel/library/stats/html/prcomp.html スケールはデータをスケーリングするために記述されているため、単位分散があります。私のデータは私が望んでいたものとは非常に異なるスケールを持っているので、私は思う。問題は、上記のコードを使用するとき、またはスキップするときclr()(より望ましい結果が得られる)、別のソリューションを受け取ることです。しかし、私はなぜclr()その場合に邪魔なのか知りたいですか?

1
ダニエルウィルクス(2011)は、主成分回帰が「バイアスされる」と言うのはなぜですか?
で大気科学における統計的手法の予測の中で非常に強いintercorrelations(第3版、ページ559から560)がある場合は、複数の線形回帰は、問題を引き起こす可能性があること、ダニエル・ウィルクス・ノート: 多重線形回帰で発生する可能性のある病状は、強い相互相関を持つ予測変数のセットが不安定な回帰関係の計算につながる可能性があることです。 (...) 次に、主成分回帰を導入します。 この問題を解決する方法は、最初に予測子をその相関関係がゼロである主成分に変換することです。 ここまでは順調ですね。しかし、次に、彼は説明していない(または少なくとも私が理解するのに十分な詳細ではない)いくつかの声明を出します: すべての主成分が主成分回帰で保持されている場合、完全な予測子セットへの従来の最小二乗近似では何も得られません。 (..)および: 元の予測子に関して主成分回帰を再表現することは可能ですが、1つまたは少数の主成分予測子のみが使用されている場合でも、結果には一般にすべての元の予測子変数が含まれます。この再構成された回帰は偏りがありますが、多くの場合、分散ははるかに小さく、全体としてMSEが小さくなります。 私はこれらの2つの点を理解していません。 もちろん、すべての主成分が保持されている場合、元の空間で予測子を使用していたときと同じ情報を使用します。ただし、相互相関の問題は、主成分空間で作業することにより除去されます。私たちはまだ過剰適合しているかもしれませんが、それが唯一の問題ですか?何も得られないのはなぜですか? 第二に、主成分を切り捨てたとしても(おそらくノイズ低減および/または過剰適合を防ぐために)、なぜ、どのようにこれが偏った再構成回帰につながるのでしょうか?どのように偏ったのですか? 書籍のソース:Daniel S. Wilks、Atmospheric Methods in the Atmospheric Sc​​iences、第3版、2011年。InternationalGeophysics Series Volume 100、Academic Press。
13 regression  pca  bias 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.