タグ付けされた質問 「pca」

主成分分析(PCA)は、線形次元削減手法です。これは、多変量データセットを、できるだけ多くの情報(できるだけ多くの分散)を維持する、構築された変数のより小さなセットに削減します。主成分と呼ばれるこれらの変数は、入力変数の線形結合です。

1
R関数「princomp」と「prcomp」が異なる固有値を与えるのはなぜですか?
これを再現するには、十種競技データセット{FactoMineR}を使用できます。問題は、計算された固有値が共分散行列の固有値と異なる理由です。 を使用した固有値はprincomp次のとおりです。 > library(FactoMineR);data(decathlon) > pr <- princomp(decathlon[1:10], cor=F) > pr$sd^2 Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 1.348073e+02 2.293556e+01 9.747263e+00 1.117215e+00 3.477705e-01 1.326819e-01 Comp.7 Comp.8 Comp.9 Comp.10 6.208630e-02 4.938498e-02 2.504308e-02 4.908785e-03 そして同じを使用してPCA: > res<-PCA(decathlon[1:10], scale.unit=FALSE, ncp=5, graph = FALSE) > res$eig eigenvalue percentage of variance cumulative percentage of variance comp …
22 r  pca 

2
場合の「単位分散」リッジ回帰推定量の制限
に単位平方和(同等に、単位分散)が必要な追加の制約を使用したリッジ回帰を検討してください。必要に応じて、は単位平方和もあると想定できます。 Yy^y^\hat{\mathbf y}yy\mathbf y β^∗λ=argmin{∥y−Xβ∥2+λ∥β∥2}s.t.∥Xβ∥2=1.β^λ∗=arg⁡min{‖y−Xβ‖2+λ‖β‖2}s.t.‖Xβ‖2=1.\hat{\boldsymbol\beta}_\lambda^* = \arg\min\Big\{\|\mathbf y - \mathbf X \boldsymbol \beta\|^2+\lambda\|\boldsymbol\beta\|^2\Big\} \:\:\text{s.t.}\:\: \|\mathbf X \boldsymbol\beta\|^2=1. \ lambda \ to \ inftyの場合、\ hat {\ boldsymbol \ beta} _ \ lambda ^ *の制限は何ですか?β^∗λβ^λ∗\hat{\boldsymbol\beta}_\lambda^*λ→∞λ→∞\lambda\to\infty 以下は、私が真実だと信じている声明です。 \ lambda = 0の場合λ=0λ=0\lambda=0、きちんとした明示的な解決策があります。OLS推定器を取るβ^0=(X⊤X)−1X⊤yβ^0=(X⊤X)−1X⊤y\hat{\boldsymbol\beta}_0=(\mathbf X^\top \mathbf X)^{-1}\mathbf X^\top \mathbf yおよび制約を満たすように正規化します(ラグランジュ乗数を追加して微分することでこれを見ることができます): β^∗0=β^0/∥Xβ^0∥.β^0∗=β^0/‖Xβ^0‖.\hat{\boldsymbol\beta}_0^* = \hat{\boldsymbol\beta}_0 \big/ \|\mathbf X\hat{\boldsymbol\beta}_0\|. …

3
次元数がサンプル数より大きい場合のPCA
私は、分類器に渡す必要がある14000個のデータポイント(次元)を含む10人(つまり100個のサンプル)に対して1人あたり10個の信号があるシナリオに遭遇しました。このデータの次元数を減らしたいのですが、PCAがそうするようです。ただし、サンプルの数が次元の数よりも大きいPCAの例を見つけることしかできませんでした。SVDを使用してPCを検出するPCAアプリケーションを使用しています。100x14000データセットを渡すと101個のPCが返されるため、ほとんどのディメンションは明らかに無視されます。プログラムは、最初の6台のPCに90%の分散が含まれることを示しています。 これらの101台のPCには本質的にすべての分散が含まれており、残りの次元は無視できるというのは合理的な仮定ですか? 私が読んだ論文の1つは、自分のデータセットと同様の(わずかに低い品質)データセットを使用して、4500の次元を80に減らして元の情報の96%を保持できたと主張しています。使用されたPCA手法の詳細に関する論文の手振り、3100サンプルのみが利用可能であり、PCAを実際に実行するために使用されたサンプルよりも少ないサンプルを信じる理由があります(分類段階からバイアスを取り除くため)。 私は何かを見逃していますか、これは本当にPCAが高次元で低サンプルサイズのデータ​​セットで使用される方法ですか?フィードバックは大歓迎です。

3
ランダムデータのSVD結果における奇妙な相関。彼らは数学的な説明を持っていますか、それはLAPACKのバグですか?
ランダムデータのSVD結果に非常に奇妙な動作が見られます。これは、MatlabとRの両方で再現できます。LAPACKライ​​ブラリの数値の問題のようです。それは...ですか? 平均がゼロで、共分散がゼロの次元ガウスからサンプルを描画します:。データ行列にアセンブルします。(オプションで中央に配置するかどうかは、以下に影響しません。)次に、特異値分解(SVD)を実行してを取得します。 2つの特定の要素、たとえばと取り上げて、異なる描画間でそれらの間の相関関係をみましょう。数字があれば、K = 2 X 〜N(0 、I)1000年× 2 X X X = U S V ⊤ U U 11 U 22 X N個のR EのPn=1000n=1000n=1000k=2k=2k=2X∼N(0,I)X∼N(0,I)X\sim \mathcal N (0, \mathbf I)1000×21000×21000 \times 2XX\mathbf XXX\mathbf XX=USV⊤X=USV⊤\mathbf X=\mathbf{USV}^\topUU\mathbf UU11U11U_{11}U22U22U_{22}XX\mathbf XNrepNrepN_\mathrm{rep}描画のは適度に大きいため、このような相関はすべてゼロに近いはずです(つまり、母集団の相関はゼロでなければならず、サンプルの相関は小さくなります)。 ただし、、、、および間で、これらの要素間でのみ、いくつかの奇妙な強い相関関係(約)が観察されます。他のすべての要素のペアには、予想どおりゼロ付近の相関があります。ここではどのようにするための相関行列20の「上部」の要素Uが\ mathbf(最初のように見える10個の、最初の列の要素、最初の10秒の列の要素)。U 11 U 12 U 21 U 22±0.2±0.2\pm0.2U11U11U_{11}U12U12U_{12}U21U21U_{21}U22U22U_{22}U 10 10202020UU\mathbf U101010101010 各象限の左上隅にある奇妙に高い値に注意してください。 …

4
機能主成分分析(FPCA):それは何ですか?
機能的主成分分析(FPCA)は、私が偶然見つけたものであり、理解できなかったものです。それは何ですか? Shang、2011による「機能的主成分分析の調査」を参照してください。 PCAは、「次元の呪い」(Bellman 1961)のために、機能データの分析において深刻な困難に直面します。「次元の呪い」は、高次元空間におけるデータの希薄性に由来します。PCAの幾何学的特性が有効なままであっても、数値的手法が安定した結果を提供する場合でも、サンプル共分散行列は母集団共分散行列の不十分な推定値である場合があります。この困難を克服するために、FPCAはPCAよりもサンプルの共分散構造を調べるより有益な方法を提供します[...] わかりません。この論文が説明している欠点は何ですか?PCAは、「次元の呪い」のような状況を処理する究極の方法であると想定されていませんか?

4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

2
PCAは時系列データに適用できますか?
主成分分析(PCA)は、基本的に断面データに適用できることを理解しています。年を時系列変数として指定し、PCAを正常に実行することにより、PCAを時系列データに効果的に使用できますか?動的PCAはパネルデータに対して機能し、Stataのコーディングは時系列ではなくパネルデータ用に設計されていることがわかりました。時系列データで機能する特定のタイプのPCAはありますか? 更新。詳細に説明させてください。 現在、道路の長さ、鉄道のルートの長さ、発電能力、電話加入者数などの変数を使用して、インドのインフラストラクチャのインデックスを構築しています。PCAを時系列やパネルデータに適用する論文をレビューしましたが、PCAはiidの仮定を前提とする断面データ用に設計されています。パネルおよび断面データはそれを侵害し、PCAはその中の時系列ディメンションを考慮しません。動的PCAがパネルデータにのみ適用されるのを見てきました。時系列に適用される特定のPCAがあるか、時系列変数として定義された年で静的PCAを実行するかどうかを知りたいですか?
21 time-series  pca 

1
PCA /コレスポンデンス分析の「馬蹄形効果」および/または「アーチ効果」とは何ですか?
多次元データの探索的データ分析のための生態学的統計には多くの手法があります。これらは「調整」技術と呼ばれます。多くは、統計の他の場所にある一般的な手法と同じか、密接に関連しています。おそらく、プロトタイプの例は主成分分析(PCA)です。エコロジストは、PCAおよび関連する手法を使用して「勾配」を探索する場合があります(勾配とは完全には明確ではありませんが、それについて少し読んでいます)。 で、このページの下の最後の項目主成分分析(PCA)は、読み取ります。 PCAには、植生データにとって重大な問題があります。それは、馬蹄形効果です。これは、勾配に沿った種の分布の曲線性によって引き起こされます。種の応答曲線は通常、単峰性(つまり、非常に強い曲線)であるため、馬蹄形効果が一般的です。 ページのさらに下の、コレスポンデンス分析または相互平均(RA)の下で、「アーチ効果」を参照します。 RAには問題があります:アーチ効果。また、勾配に沿った分布の非線形性によっても発生します。 勾配の両端は入り組んでいないため、アーチはPCAの馬蹄形効果ほど深刻ではありません。 誰かがこれを説明できますか?最近、この現象を低次元空間のデータを表すプロットで見ました(つまり、コレスポンデンス分析と因子分析)。 「勾配」は、より一般的に(つまり、非生態学的な文脈で)何に対応しますか? これがデータで発生した場合、それは「問題」(「深刻な問題」)ですか?何のために? 馬蹄/アーチが現れる出力をどのように解釈する必要がありますか? 救済策を適用する必要がありますか?何?元のデータの変換は役立ちますか?データが序数評価の場合はどうなりますか? 回答は、そのサイトの他のページに存在する場合があります(PCA、CA、およびDCAなど)。私はそれらを介して作業しようとしています。しかし、議論は十分になじみのない生態学的用語と例にまとめられており、問題を理解することはより困難です。

2
SVAがPCAより優れている点はありますか?
私は、PCAとSVDを数学的に計算する方法を知っています。そして、両方が線形最小二乗回帰に適用できることを知っています。 SVDの主な利点は、数学的には、非正方行列に適用できることです。 どちらも行列の分解に焦点を当てています。前述のSVDの利点以外に、PCAよりもSVDを使用することで得られる追加の利点や洞察はありますか?バツ⊤バツバツ⊤バツX^\top X 数学的な違いではなく、直感を本当に探しています。
20 pca  least-squares  svd 

2
因子スコアを計算する方法、およびPCAまたは因子分析の「スコア係数」マトリックスとは何ですか?
私の理解では、相関に基づくPCAでは、変数(この場合は主成分)の負荷を取得しますが、これは変数と因子間の相関にすぎません。SPSSで因子スコアを生成する必要がある場合、各因子の各回答者の因子スコアを直接取得できます。また、「コンポーネントスコア係数行列」(SPSSによって生成される)に標準化された元の変数を掛けると、SPSSから取得したものと同じファクタースコアが得られることも観察しました。 「コンポーネントスコア係数マトリックス」または「ファクタースコア係数マトリックス」(ファクターまたはコンポーネントスコアを計算できる)がどのように計算されるかを誰かが理解してくれますか?この行列では、計算係数スコアのさまざまな方法がどのように異なりますか?

3
Rのrollapply PCAで「ジャンピー」ロードが発生しています。修正できますか?
28種類の通貨の10年間の毎日の返品データがあります。最初の主成分を抽出したいのですが、10年全体でPCAを運用するのではなく、通貨の振る舞いが進化するため、2年の期間をロール適用したいと思います。しかし、大きな問題があります。つまり、princomp()関数とprcomp()関数の両方が、隣接するPCA分析で正の負荷から負の負荷にジャンプすることが多いということです(1日間隔)。EUR通貨のローディングチャートをご覧ください: 明らかに、隣接する負荷が正から負にジャンプするため、これを使用することはできません。したがって、それらを使用するシリーズはエラーになります。次に、EUR通貨ローディングの絶対値を見てみましょう。 もちろん、トップチャートから負荷が負から正に、そして時々戻ることがわかるため、これを使用できないという問題があります。これは、保持する必要がある特性です。 この問題を回避する方法はありますか?隣接するPCAで固有ベクトルの向きを常に同じにすることができますか? ところで、この問題はFactoMineR PCA()関数でも発生します。rollapplyのコードは次のとおりです。 rollapply(retmat, windowl, function(x) summary(princomp(x))$loadings[, 1], by.column = FALSE, align = "right") -> princomproll
20 r  pca 

6
非ガウスデータのPCA
PCAについて簡単な質問がいくつかあります。 PCA は、データセットがガウスであると想定していますか? 本質的に非線形データにPCAを適用するとどうなりますか? データセットが与えられた場合、プロセスはまず平均正規化を行い、分散を1に設定し、SVDを取得し、ランクを下げ、最後にデータセットを新しいランクを下げた新しいスペースにマッピングします。新しい空間では、各次元は最大分散の「方向」に対応します。 しかし、新しい空間でのそのデータセットの相関は常にゼロですか、それとも本質的にガウスのデータにのみ当てはまりますか? 「A」と「B」の2つのデータセットがあり、「A」がガウス分布からランダムにサンプリングされたポイントに対応し、「B」が別の分布(ポアソンなど)からランダムにサンプリングされたポイントに対応するとします。 PCA(A)とPCA(B)はどのように比較されますか? 新しい空間内の点を調べることにより、PCA(A)がガウスからサンプリングされた点に対応し、PCA(B)がポアソンからサンプリングされた点に対応することをどのように判断できますか? 「A」のポイントの相関は0ですか? 「B」の点の相関も0ですか? さらに重要なことは、私は「正しい」質問をしているのですか? 相関関係を調べる必要がありますか、それとも考慮すべき別のメトリックがありますか?
20 pca  svd 

4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
numpyとsklearnのPCAは異なる結果を生成します
私は何かを誤解していますか。これは私のコードです sklearnを使用する import numpy as np import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D from sklearn import decomposition from sklearn import datasets from sklearn.preprocessing import StandardScaler pca = decomposition.PCA(n_components=3) x = np.array([ [0.387,4878, 5.42], [0.723,12104,5.25], [1,12756,5.52], [1.524,6787,3.94], ]) pca.fit_transform(x) 出力: array([[ -4.25324997e+03, -8.41288672e-01, -8.37858943e-03], [ 2.97275001e+03, -1.25977271e-01, 1.82476780e-01], [ 3.62475003e+03, …


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.