タグ付けされた質問 「pca」

主成分分析(PCA)は、線形次元削減手法です。これは、多変量データセットを、できるだけ多くの情報(できるだけ多くの分散)を維持する、構築された変数のより小さなセットに削減します。主成分と呼ばれるこれらの変数は、入力変数の線形結合です。

1
RでのPCAの視覚化:データポイント、固有ベクトル、射影、信頼楕円
私は17人のデータセットを持ち、77のステートメントをランク付けしています。ステートメント間(ケースとして)の人(変数)間の相関の転置相関行列の主成分を抽出したい。奇妙なことに、Qメソドロジと呼ばれています。 データのペアのみの固有値/ベクトルを抽出して視覚化することにより、このコンテキストでPCAがどのように機能するかを説明します。(私の分野では PCAを取得している人はほとんどいないため、QAへの適用はもちろんのこと、私も含まれます)。 私の実際のデータに対してのみ、この素晴らしいチュートリアルからの視覚化が必要です。 これを私のデータのサブセットにしましょう: Person1 <- c(-3,1,1,-3,0,-1,-1,0,-1,-1,3,4,5,-2,1,2,-2,-1,1,-2,1,-3,4,-6,1,-3,-4,3,3,-5,0,3,0,-3,1,-2,-1,0,-3,3,-4,-4,-7,-5,-2,-2,-1,1,1,2,0,0,2,-2,4,2,1,2,2,7,0,3,2,5,2,6,0,4,0,-2,-1,2,0,-1,-2,-4,-1) Person2 <- c(-4,-3,4,-5,-1,-1,-2,2,1,0,3,2,3,-4,2,-1,2,-1,4,-2,6,-2,-1,-2,-1,-1,-3,5,2,-1,3,3,1,-3,1,3,-3,2,-2,4,-4,-6,-4,-7,0,-3,1,-2,0,2,-5,2,-2,-1,4,1,1,0,1,5,1,0,1,1,0,2,0,7,-2,3,-1,-2,-3,0,0,0,0) df <- data.frame(cbind(Person1, Person2)) g <- ggplot(data = df, mapping = aes(x = Person1, y = Person2)) g <- g + geom_point(alpha = 1/3) # alpha b/c of overplotting g <- g + geom_smooth(method = "lm") # just for …

1
線形独立と統計的独立(PCAおよびICA)
遺伝子発現データへのICAの適用に関するこの興味深い論文を読んでいます。 著者は書きます: PCAコンポーネントが統計的に独立している必要はありません。 それは事実ですが、PCは直交していますが、そうではありませんか? 統計的独立性と直交性または線形独立性との関係については、少しあいまいです。 ICAはデータマトリックスの線形分解も提供しますが、統計的独立性の要件は、非相関が線形で実行されるPCAとは対照的に、データ共分散マトリックスが非線形に非相関であることを意味します。 分かりません。線形性の欠如は統計的独立性からどのように続きますか? 質問:ICAのコンポーネントの統計的独立性は、PCAのコンポーネントの線形独立性とどのように関連していますか?
8 pca  independence  ica 


2
サンプル間の主成分分解を比較するためのテスト/手法/方法はありますか?
同じ母集団から抽出された異なるサンプルのPCA結果の方向、大きさなどを比較する方法論的な方法はありますか? さまざまな可能性をすべて聞きたいので、テストの性質を故意に曖昧にしておきます...たとえば、最初の主成分のサイズを比較するテスト(または、ここで推測している)があるかもしれません。主成分の方向を比較するテスト、またはPCAの結果とそれらが等しいかどうかの検定統計量の間に何らかの距離測定があります。 ユースケースに関する限り、私は心に留めていません。好奇心から、おそらく探索的手法として。

1
PCAを前処理ステップとして使用するのが適切なのはいつですか?
PCAは、データセットを2Dまたは3Dでプロットできるように次元削減に使用されることを理解しています。しかし、PCAを分類シナリオの前処理ステップとして適用して特徴の数を減らし、新しい特徴としていくつかの主成分(共分散行列の固有ベクトル)を使用する人を見たこともあります。 私の質問: 分類のパフォーマンスにどのような影響がありますか? そのような前処理ステップをいつ適用するのですか? 実数として10個の特徴とカテゴリカル特徴を表す600個のバイナリ特徴を含むデータセットがあり、それらを表すために1対多のエンコーディングを使用しています。ここでPCAを適用すると意味があり、より良い結果が得られますか? 質問が広すぎる場合は、そのようにPCAを使用する方法の詳細をより詳しく説明するペーパーまたはチュートリアルを提供していただければありがたいです。 少し読んだ後、カテゴリ属性のバイナリ機能の数を減らすには、潜在セマンティック分析を使用する方が良いことがわかりましたか?したがって、私は実数値の特徴には触れず、バイナリ特徴を前処理して、実数値の特徴を新しい特徴と組み合わせ、分類器をトレーニングするだけです。どう思いますか?

1
「PCA(主成分分析)はデータを球形にする」とはどういう意味ですか?
私はいくつかのメモを読んでいましたが、PCAは「データの範囲を限定」できると述べています。彼らが「データの球形化」と私に定義するのは、各次元を対応する固有値の平方根で割ることです。 「次元」とは、射影先の各基底ベクトル(つまり、射影先の固有ベクトル)を意味すると想定しています。したがって、私は彼らがやっていると思います: u′i=uieigenValue(ui)−−−−−−−−−−−−√ui′=uieigenValue(ui) u^{'}_i= \frac{u_i}{\sqrt{eigenValue(u_i)}} ここで、は固有ベクトルの1つ(つまり、主成分の1つ)です。次に、その新しいベクトルを使用して、私たちが持っている生データ、たとえばを投影していると仮定します。したがって、投影される点は次のようになります。uiuiu_ix(i)x(i)x^{(i)}z(i)z(i)z^{(i)} z′(i)=u′i⋅x(i)z′(i)=ui′⋅x(i) z'^{(i)} = u^{'}_i \cdot x^{(i)} 彼らは、これを行うと、すべての機能が同じ分散を持つことが保証されると主張しています。 しかし、私がそれらが球形化によって何を意味するかについての私の解釈が正しいかどうかさえ確信がなく、それが正しいかどうかを確認したいと思っていました。また、それが正しかったとしても、このようなことをする意味は何ですか?私は彼らがそれが皆が同じ分散を持つことを確実にすることを主張することを知っています、しかし、なぜ私たちはこれをしたいのですか、そしてそれはどのようにこれを達成しますか?
8 pca 

1
スター座標と主成分分析
現在、「ビジュアルデータ分析」の大学コースのプレゼンテーションを準備しています。そして、私のトピックの1つは「Star Coordinate」の視覚化です。スター座標 Star Coordinatesが高次元データの変換を実行し、よく知られているPCA技法もそれを実行するので、PCAをStar Coordinatesで模倣できるかどうか疑問に思いますか?元の変数の線形結合を表すように座標軸を並べ替えると思いますか?しかし、これは単なるアイデアです。誰かがこれを確認または反証できますか?

1
PCAとLDAの説明された分散の割合
PCA(主成分分析)およびLDA(線形判別分析)に関するいくつかの基本的な質問があります。 PCAでは、説明されている分散の割合を計算する方法があります。LDAでも可能ですか?もしそうなら、どうですか? lda関数(R MASSライブラリ内)からの「トレースの割合」出力は、「分散の割合の説明」と同等ですか?

1
線形回帰の予測子としてのバリマックス回転PCAコンポーネントの使用
PCAを実行した後、最初のコンポーネントは変動性の最大の部分を記述します。これは、PC1軸がサイズの変動をキャプチャすることが一般的に知られている(Jolliffe、2002)身体測定の研究などで重要です。私の質問は、バリマックスローテーション後のPCAスコアが同じプロパティを保持するか、またはこのトピックで述べたようにそれらが異なるかどうかです。 さらなる統計分析のためにPCAスコアが必要なため、varimaxが必要かどうか、そして実際に実際のサンプルの変動性の表現を混乱させて、回転した軸上の個々のスコアが情報を得られない、または現実の誤解につながるのでしょうか? また、誰かがこのトピックに関する他の参考文献を提案できますか? Rのワークフロー: PCA(FactoMineRまたはprcomp)->個々のスコアを抽出->にスコアを入力lm PCA(FactoMinerまたはprcomp)->荷重行列のバリマックス->個々のスコアを計算->にスコアを入力lm FA(psych、バリマックス、PCA抽出方法)->個々のスコアを抽出->スコアをlm ここで、回転なし(1.)の説明された変動性のパーセンテージは、最初の3つの軸で29.32、5.6、3.2です。2.および3.ソリューションは、最初の3つの要因、つまり12.2、12.1、8.2で同様の割合を示します。もちろん、1。ソリューションはすべての高変動荷重を最初の軸にプッシュする傾向がありますが、2。および3.は軸間で荷重を分散する傾向があります(これが回転の理由です)。回転した軸と回転していない軸では個々のスコアが異なるため、これらの3つのワークフローが本質的に同じであるかどうか知りたいですか?

1
与えられた固有値の分布は既知です
ランダムマトリックス理論の洞察を使用して、因子を形成するために使用する共分散/相関行列のPCAから主成分の数を決定することに慣れています。 最初のPCに関連付けられている固有値が大きい場合、それは残りの固有値が小さいことを意味します(固有値の合計は相関行列のトレースと等しくなければならないため)。最初のPCが十分に大きい場合、これらの固有値はすべてMarcenko-Pastur分布の下限を下回る可能性があります。これは、偶然のためではなく、最初の固有値が非常に大きいために低いことを意味します。ただし、重要な情報が含まれているという意味ではありません。むしろ、「最初のPCがいくらか大きいとすると、残りの固有値の分布は、ランダムデータが原因である場合、どのように見えるでしょうか?」という質問をするのが理にかなっています。 この問題に対処する研究はありますか?1つまたは複数の固有値を知ることを条件としてマルセンコパストル分布を得ることが可能である場合、因子を有意な情報に反映するかどうかを決定するために反復的に進めることが可能です。

3
SPSSを使用した2x3混合設計ANOVAの事後テスト?
実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group(コントロール、実験)、time(最初、2、3)、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。 グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。 したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です! 記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。 インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。 どう思いますか?どちらが正しい方法でしょうか?
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 

1
ベイズの定理を使用する場合の信頼区間
いくつかの条件付き確率と、95%の信頼区間を計算しています。私のケースの多くでは、(分割表からの)試行からのx成功の単純なカウントがあるnため、で提供さbinom.confint(x, n, method='exact')れてRいるような二項信頼区間を使用できます。 しかし、他の場合では、そのようなデータがないので、ベイズの定理を使用して、持っている情報から計算します。たとえば、イベントおよび与えられた場合:baaabbb P(a | b )= P(B |)⋅ P(a )P(b )P(a|b)=P(b|a)⋅P(a)P(b) P(a|b) = \frac{P(b|a) \cdot P(a)}{P(b)} \ textrm {binom.confint}(\#\ left(b \ cap {} a)、\#(a)\ right)を使用してP(b | a)の周りの95%信頼区間を計算でき、比率P(a)/ P(b)を周波数比\#(a)/ \#(b)として。この情報を使用してP(a | b)の周囲の信頼区間を導出することは可能ですか?P(b | a )P(b|a)P(b|a)binom.confint(#(B ∩a )、#(a ))binom.confint(#(b∩a),#(a))\textrm{binom.confint}(\#\left(b\cap{}a),\#(a)\right)P(a )/ P(b )P(a)/P(b)P(a)/P(b)#(a )/#(b )#(a)/#(b)\#(a)/\#(b)P(a | b )P(a|b)P(a|b) ありがとう。

3
非常に小さいサンプルサイズの次元削減手法
私は21の社会経済的および態度のマクロレベルの変数を持っています(24歳から54歳の母親の就業していない割合、3歳から5歳の子供の保育園の割合など)。私はまた、集中的な保育を提供した祖父母の割合に関するデータも持っています。私が選択したほとんどの社会経済変数は、保育提供と高い相関があります(たとえば、パートタイムで雇用されている母親の割合と祖父母保育の提供の間には負の相関があります)。 理想的には、さまざまな国の類型を作成したいと思います。私の希望は、コンポーネントや要素が直感的に理解できるようなある種の次元削減手法を使用することです(たとえば、家族や性別に対する態度、労働市場構造、家族政策)。または、代わりに、21のマクロレベルの指標のうちどれが国全体の保育規定の変動性を最もよく説明するかを評価します。 私の主な問題は、ヨーロッパの国が12か国しかないことです。PCAと因子分析は、少数のケースで適切な手法ではないと思います。私は正しいですか?質的比較分析または多重対応分析の使用を試みるように言われましたが、私の理解では、後者の手法はバイナリ(またはカテゴリ)マクロレベルのインジケーターに適しています(マイニングはパーセンテージまたは連続変数です)。

1
平滑化後のデータ行列(PCA)のSVD
レッツは、私が持っているとn×mn×mn \times m、データ行列中心AAA SVDを用いてA=UΣVTA=UΣVTA = U \Sigma V^{T}。 たとえば、m=50m=50m=50列(測定値)であり、n=100n=100n=100異なる周波数のスペクトルです。行列が中央に配置されるため、行列の行の平均が差し引かれます。これは、左特異ベクトルを主成分として解釈するためのものです。 各列ベクトルを平滑化したときにSVDがどのように変化するかを理解することに興味があります。たとえば、[1/3、2/3、1/3]のような単純なカーネルで各100x1列を平滑化しましょう。 S=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢23131323131323⋱13⋱13⋱23131323131323⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥S=[2313132313132313⋱⋱⋱1323131323131323]S=\begin{bmatrix} \frac{2}{3}&\frac{1}{3}& & & & &\\ \frac{1}{3}&\frac{2}{3}&\frac{1}{3} & & & &\\ & \frac{1}{3}&\frac{2}{3}&\frac{1}{3} & & &\\ & & \ddots& \ddots & \ddots & & \\ & & & \frac{1}{3}&\frac{2}{3}&\frac{1}{3} & \\ & & & &\frac{1}{3}&\frac{2}{3}&\frac{1}{3} \\ & & & & …
8 pca  smoothing  svd 

1
継続的な臨床変数と遺伝子発現データの相関
各ケースとコントロールの〜25の遺伝子発現(〜400変数/遺伝子)のデータセットのSVM(線形カーネル)分類分析では、遺伝子発現ベースの分類子が非常に優れたパフォーマンス特性を持っていることがわかりました。ケースとコントロールは、(フィッシャーの正確確率検定またはt検定に従って)多数のカテゴリー的および継続的な臨床/人口統計学的変数について有意差はありませんが、年齢については有意差があります。 分類分析の結果が年齢の影響を受けているかどうかを示す方法はありますか? 遺伝子発現データを主成分に減らし、年齢に対する成分のスピアマン相関分析を行うことを考えています。 これは合理的なアプローチですか?または、SVM分析で得られた年齢とクラスメンバーシップの確率値の相関関係を確認できますか。 ありがとう。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.