タグ付けされた質問 「pca」

主成分分析(PCA)は、線形次元削減手法です。これは、多変量データセットを、できるだけ多くの情報(できるだけ多くの分散)を維持する、構築された変数のより小さなセットに削減します。主成分と呼ばれるこれらの変数は、入力変数の線形結合です。

2
主成分分析におけるバイプロットの解釈
この素晴らしいチュートリアルに出くわしました。Rを使用した統計分析のハンドブック。第13章主成分分析: R言語でPCAを実行する方法に関するオリンピック7大会。図13.3の解釈がわかりません。 したがって、最初の固有ベクトルと2番目の固有ベクトルをプロットしています。どういう意味ですか?最初の固有ベクトルに対応する固有値がデータセットの変動の60%を説明し、2番目の固有値-固有ベクトルが変動の20%を説明するとします。これらを互いにプロットすることはどういう意味ですか?

1
センタリングはPCAにどのように違いをもたらしますか(SVDおよび固有分解の場合)?
データのセンタリング(または軽for)はPCAに対してどのような違いがありますか?数学が簡単になる、または最初のPCが変数の手段に支配されるのを防ぐと聞いたことがありますが、まだ概念をしっかりと把握できていないように感じます。 たとえば、ここで一番の答えは、どのようにデータをセンタリングすることで、回帰とPCAのインターセプトを取り除きますか?センタリングしないと、点群の主軸ではなく、原点を介して最初のPCAがどのように引き出されるかを説明します。PCが共分散行列の固有ベクトルからどのように取得されるかについての私の理解に基づいて、私はこれがなぜ起こるのか理解できません。 さらに、センタリングがある場合とない場合の私自身の計算はほとんど意味がないようです。 irisR のデータセットのsetosa花について考えます。サンプルの共分散行列の固有ベクトルと固有値を次のように計算しました。 data(iris) df <- iris[iris$Species=='setosa',1:4] e <- eigen(cov(df)) > e $values [1] 0.236455690 0.036918732 0.026796399 0.009033261 $vectors [,1] [,2] [,3] [,4] [1,] -0.66907840 0.5978840 0.4399628 -0.03607712 [2,] -0.73414783 -0.6206734 -0.2746075 -0.01955027 [3,] -0.09654390 0.4900556 -0.8324495 -0.23990129 [4,] -0.06356359 0.1309379 -0.1950675 0.96992969 最初にデータセットを中央に配置すると、まったく同じ結果が得られます。センタリングは共分散行列をまったく変更しないため、これは非常に明白なようです。 df.centered <- scale(df,scale=F,center=T) e.centered<- …
30 r  pca  svd  eigenvalues  centering 


5
機械学習で階層/ネストされたデータを処理する方法
例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
因子分析における最高の因子抽出方法
SPSSは、因子抽出のいくつかの方法を提供します。 主成分(これは因子分析ではありません) 重みなし最小二乗 一般化最小二乗 最尤法 主軸 アルファ因数分解 画像ファクタリング 因子分析(ただし主成分分析、PCA)ではない最初の方法を無視すると、これらの方法のうちどれが「最良」ですか?さまざまな方法の相対的な利点は何ですか?そして基本的に、使用するものをどのように選択しますか? 追加の質問:6つの方法すべてから同様の結果を取得する必要がありますか?

3
PCAを介して直交回帰(合計最小二乗)を実行する方法は?
私は常にlm()R での線形回帰を実行するために使用します。この関数は、ような係数返しますyyyxxxββ\betay=βx.y=βx.y = \beta x. 今日、私は総最小二乗について学び、そのprincomp()機能(主成分分析、PCA)を使用してそれを実行できることを学びました。それは私にとって良いはずです(より正確に)。を使用していくつかのテストを行いましたprincomp(): r <- princomp( ~ x + y) 私の問題は、結果をどのように解釈するかです。回帰係数を取得するにはどうすればよいですか?「係数」とは、値を掛けて近い数を与えるために使用しなければならない数を意味します。ββ\betaxxxyyy

4
Andrew NgがPCAを行うために共分散行列のEIGではなくSVDを使用することを好むのはなぜですか?
Andrew NgのCourseraコースのPCAと他の資料を勉強しています。スタンフォードNLPコースcs224nの最初の課題、およびAndrew Ngの講義ビデオでは、共分散行列の固有ベクトル分解の代わりに特異値分解を行い、NgはSVDが固有分解よりも数値的に安定しているとさえ述べています。 私の理解では、PCAの場合、(m,n)サイズの共分散行列ではなく、サイズのデータ行列のSVDを行う必要があり(n,n)ます。そして、共分散行列の固有ベクトル分解。 なぜデータ行列ではなく共分散行列のSVDを行うのですか?

1
順序データまたはバイナリデータの因子分析またはPCAはありますか?
主成分分析(PCA)、探索的因子分析(EFA)、および確認的因子分析(CFA)を完了し、リッカートスケール(5レベルの応答:なし、少し、いくつか、..)変数。次に、Lavaanを使用して、変数をカテゴリカルとして定義するCFAを繰り返しました。 データが通常の順序である場合、どのタイプの分析が適切で、PCAおよびEFAに相当するかを知りたいと思います。そして、バイナリのとき。 また、このような分析のために簡単に実装できる特定のパッケージまたはソフトウェアの提案も歓迎します。

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

4
Rを使用した次元削減のためのt-SNEとPCAの何が問題になっていますか?
336x256の浮動小数点数(336の細菌ゲノム(列)x 256の正規化されたテトラヌクレオチド頻度(行)の行列があります。たとえば、各列の合計は1です)。 主成分分析を使用して分析を実行すると、素晴らしい結果が得られます。最初にデータのkmeansクラスターを計算してから、PCAを実行し、2Dおよび3Dの初期kmeansクラスタリングに基づいてデータポイントを色付けします。 library(tsne) library(rgl) library(FactoMineR) library(vegan) # read input data mydata <-t(read.csv("freq.out", header = T, stringsAsFactors = F, sep = "\t", row.names = 1)) # Kmeans Cluster with 5 centers and iterations =10000 km <- kmeans(mydata,5,10000) # run principle component analysis pc<-prcomp(mydata) # plot dots plot(pc$x[,1], pc$x[,2],col=km$cluster,pch=16) # plot …
27 r  pca  tsne 

4
PCAまたはFAの最小サンプルサイズは、主な目標が数個のコンポーネントのみを推定することである場合ですか?
観測値と個の変数(次元)を含むデータセットがあり、通常は小さい()、は小さい()からおそらくはるかに大きい()。p n n = 12 − 16 p p = 4 − 10 p = 30 − 50nnnpppnnnn = 12 − 16n=12−16n=12-16pppp = 4 − 10p=4−10p = 4-10p = 30 − 50p=30−50p= 30-50 主成分分析(PCA)または因子分析(FA)を実行するには、がよりもはるかに大きい必要があることを覚えていますが、これは私のデータではそうではないようです。私の目的では、PC2を過ぎた主要コンポーネントにはほとんど興味がないことに注意してください。pnnnppp 質問: PCAを使用しても問題ない場合とそうでない場合の最小サンプルサイズの経験則は何ですか? またはあっても最初の数台のPCを使用しても大丈夫ですか?n &lt; pn=pn=pn=pn&lt;pn&lt;pn<p これに関する参照はありますか? あなたの主な目標がPC1とおそらくPC2を使用することであるかどうかは重要ですか? 単にグラフィカルに、または 次に、合成変数として回帰で使用されますか?

5
PCAが分類器の結果を悪化させる原因は何ですか?
クロスバリデーションを行っている分類子と、機能の最適な組み合わせを見つけるために前方選択を行っている100個程度の機能があります。また、これをPCAで同じ実験を実行した場合と比較します。PCAでは、潜在的な特徴を取り、SVDを適用し、元の信号を新しい座標空間に変換し、前方選択プロセスで上位特徴を使用します。kkk 私の直感では、信号は元の機能よりも「有益」であるため、PCAは結果を改善します。PCAに対する私の素朴な理解は、私をトラブルに導きますか?PCAが特定の状況では結果を改善するが、他の状況では結果を悪化させる一般的な理由のいくつかを提案できますか?


1
PCAで得られた低ランクの近似行列によって、再構築エラーのどのノルムが最小化されますか?
PCA(またはSVD)行列の近似を考えるとバツXX行列とX、我々は知っていることをXが最良の低ランク近似値であるX。バツ^X^\hat Xバツ^X^\hat XバツXX これはによるとされる誘発∥は⋅ ∥は2∥⋅∥2\parallel \cdot \parallel_2規範(すなわち最大固有値規範)やフロベニウスに応じ∥は⋅ ∥はF∥⋅∥F\parallel \cdot \parallel_F標準?

7
行列の列間の線形依存性のテスト
行列式がゼロのセキュリティリターンの相関行列があります。(サンプル相関行列と対応する共分散行列は理論的には正定でなければならないため、これは少し驚くべきことです。) 私の仮説は、少なくとも1つの証券が他の証券に線形に依存しているということです。Rに線形依存関係の各列を順番にテストする関数がありますか? たとえば、1つのアプローチは、相関行列を一度に1つのセキュリティで構築し、各ステップで行列式を計算することです。行列式= 0の場合、他の証券の線形結合である証券を特定したため停止します。 そのような行列の線形依存性を特定する他の技術が評価されます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.