統計とビッグデータ pca

2

この素晴らしいチュートリアルに出くわしました。Rを使用した統計分析のハンドブック。第13章主成分分析： R言語でPCAを実行する方法に関するオリンピック7大会。図13.3の解釈がわかりません。したがって、最初の固有ベクトルと2番目の固有ベクトルをプロットしています。どういう意味ですか？最初の固有ベクトルに対応する固有値がデータセットの変動の60％を説明し、2番目の固有値-固有ベクトルが変動の20％を説明するとします。これらを互いにプロットすることはどういう意味ですか？

30 r pca data-visualization interpretation biplot

1

センタリングはPCAにどのように違いをもたらしますか（SVDおよび固有分解の場合）？

データのセンタリング（または軽for）はPCAに対してどのような違いがありますか？数学が簡単になる、または最初のPCが変数の手段に支配されるのを防ぐと聞いたことがありますが、まだ概念をしっかりと把握できていないように感じます。たとえば、ここで一番の答えは、どのようにデータをセンタリングすることで、回帰とPCAのインターセプトを取り除きますか？センタリングしないと、点群の主軸ではなく、原点を介して最初のPCAがどのように引き出されるかを説明します。PCが共分散行列の固有ベクトルからどのように取得されるかについての私の理解に基づいて、私はこれがなぜ起こるのか理解できません。さらに、センタリングがある場合とない場合の私自身の計算はほとんど意味がないようです。 irisR のデータセットのsetosa花について考えます。サンプルの共分散行列の固有ベクトルと固有値を次のように計算しました。 data(iris) df <- iris[iris$Species=='setosa',1:4] e <- eigen(cov(df)) > e $values [1] 0.236455690 0.036918732 0.026796399 0.009033261 $vectors [,1] [,2] [,3] [,4] [1,] -0.66907840 0.5978840 0.4399628 -0.03607712 [2,] -0.73414783 -0.6206734 -0.2746075 -0.01955027 [3,] -0.09654390 0.4900556 -0.8324495 -0.23990129 [4,] -0.06356359 0.1309379 -0.1950675 0.96992969 最初にデータセットを中央に配置すると、まったく同じ結果が得られます。センタリングは共分散行列をまったく変更しないため、これは非常に明白なようです。 df.centered <- scale(df,scale=F,center=T) e.centered<- …

30 r pca svd eigenvalues centering

1

バイナリデータの主成分分析または因子分析を行う

Yes / No応答が多数あるデータセットがあります。このタイプのデータに対して主成分分析（PCA）またはその他のデータ削減分析（因子分析など）を使用できますか？SPSSを使用してこれを行う方法についてアドバイスしてください。

30 spss categorical-data pca factor-analysis binary-data

5

機械学習で階層/ネストされたデータを処理する方法

例で問題を説明します。いくつかの属性（年齢、性別、国、地域、都市）を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

1

因子分析における最高の因子抽出方法

SPSSは、因子抽出のいくつかの方法を提供します。主成分（これは因子分析ではありません）重みなし最小二乗一般化最小二乗最尤法主軸アルファ因数分解画像ファクタリング因子分析（ただし主成分分析、PCA）ではない最初の方法を無視すると、これらの方法のうちどれが「最良」ですか？さまざまな方法の相対的な利点は何ですか？そして基本的に、使用するものをどのように選択しますか？追加の質問：6つの方法すべてから同様の結果を取得する必要がありますか？

29 spss pca factor-analysis

3

PCAを介して直交回帰（合計最小二乗）を実行する方法は？

私は常にlm()R での線形回帰を実行するために使用します。この関数は、ような係数返しますyyyxxxββ\betay=βx.y=βx.y = \beta x. 今日、私は総最小二乗について学び、そのprincomp()機能（主成分分析、PCA）を使用してそれを実行できることを学びました。それは私にとって良いはずです（より正確に）。を使用していくつかのテストを行いましたprincomp()： r <- princomp( ~ x + y) 私の問題は、結果をどのように解釈するかです。回帰係数を取得するにはどうすればよいですか？「係数」とは、値を掛けて近い数を与えるために使用しなければならない数を意味します。ββ\betaxxxyyy

29 r pca least-squares deming-regression total-least-squares

4

Andrew NgがPCAを行うために共分散行列のEIGではなくSVDを使用することを好むのはなぜですか？

Andrew NgのCourseraコースのPCAと他の資料を勉強しています。スタンフォードNLPコースcs224nの最初の課題、およびAndrew Ngの講義ビデオでは、共分散行列の固有ベクトル分解の代わりに特異値分解を行い、NgはSVDが固有分解よりも数値的に安定しているとさえ述べています。私の理解では、PCAの場合、(m,n)サイズの共分散行列ではなく、サイズのデータ行列のSVDを行う必要があり(n,n)ます。そして、共分散行列の固有ベクトル分解。なぜデータ行列ではなく共分散行列のSVDを行うのですか？

29 pca linear-algebra svd eigenvalues numerics

1

順序データまたはバイナリデータの因子分析またはPCAはありますか？

主成分分析（PCA）、探索的因子分析（EFA）、および確認的因子分析（CFA）を完了し、リッカートスケール（5レベルの応答：なし、少し、いくつか、..）変数。次に、Lavaanを使用して、変数をカテゴリカルとして定義するCFAを繰り返しました。データが通常の順序である場合、どのタイプの分析が適切で、PCAおよびEFAに相当するかを知りたいと思います。そして、バイナリのとき。また、このような分析のために簡単に実装できる特定のパッケージまたはソフトウェアの提案も歓迎します。

28 pca factor-analysis ordinal-data binary-data likert

1

自由度は非整数の数値にできますか？

GAMを使用すると、残留DFは（コードの最終行）になります。どういう意味ですか？GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか？26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

4

Rを使用した次元削減のためのt-SNEとPCAの何が問題になっていますか？

336x256の浮動小数点数（336の細菌ゲノム（列）x 256の正規化されたテトラヌクレオチド頻度（行）の行列があります。たとえば、各列の合計は1です）。主成分分析を使用して分析を実行すると、素晴らしい結果が得られます。最初にデータのkmeansクラスターを計算してから、PCAを実行し、2Dおよび3Dの初期kmeansクラスタリングに基づいてデータポイントを色付けします。 library(tsne) library(rgl) library(FactoMineR) library(vegan) # read input data mydata <-t(read.csv("freq.out", header = T, stringsAsFactors = F, sep = "\t", row.names = 1)) # Kmeans Cluster with 5 centers and iterations =10000 km <- kmeans(mydata,5,10000) # run principle component analysis pc<-prcomp(mydata) # plot dots plot(pc$x[,1], pc$x[,2],col=km$cluster,pch=16) # plot …

27 r pca tsne

4

PCAまたはFAの最小サンプルサイズは、主な目標が数個のコンポーネントのみを推定することである場合ですか？

観測値と個の変数（次元）を含むデータセットがあり、通常は小さい（）、は小さい（）からおそらくはるかに大きい（）。p n n = 12 − 16 p p = 4 − 10 p = 30 − 50nnnpppnnnn = 12 − 16n=12−16n=12-16pppp = 4 − 10p=4−10p = 4-10p = 30 − 50p=30−50p= 30-50 主成分分析（PCA）または因子分析（FA）を実行するには、がよりもはるかに大きい必要があることを覚えていますが、これは私のデータではそうではないようです。私の目的では、PC2を過ぎた主要コンポーネントにはほとんど興味がないことに注意してください。pnnnppp 質問： PCAを使用しても問題ない場合とそうでない場合の最小サンプルサイズの経験則は何ですか？またはあっても最初の数台のPCを使用しても大丈夫ですか？n < pn=pn=pn=pn<pn<pn<p これに関する参照はありますか？あなたの主な目標がPC1とおそらくPC2を使用することであるかどうかは重要ですか？単にグラフィカルに、または次に、合成変数として回帰で使用されますか？

27 pca sample-size factor-analysis

5

PCAが分類器の結果を悪化させる原因は何ですか？

クロスバリデーションを行っている分類子と、機能の最適な組み合わせを見つけるために前方選択を行っている100個程度の機能があります。また、これをPCAで同じ実験を実行した場合と比較します。PCAでは、潜在的な特徴を取り、SVDを適用し、元の信号を新しい座標空間に変換し、前方選択プロセスで上位特徴を使用します。kkk 私の直感では、信号は元の機能よりも「有益」であるため、PCAは結果を改善します。PCAに対する私の素朴な理解は、私をトラブルに導きますか？PCAが特定の状況では結果を改善するが、他の状況では結果を悪化させる一般的な理由のいくつかを提案できますか？

27 classification pca feature-selection

1

PCAが外れ値に敏感なのはなぜですか？

このSEには、主成分分析（PCA）への堅牢なアプローチを説明する多くの投稿がありますが、そもそもPCAが外れ値に敏感である理由についての良い説明を見つけることができません。

26 machine-learning pca outliers

1

PCAで得られた低ランクの近似行列によって、再構築エラーのどのノルムが最小化されますか？

PCA（またはSVD）行列の近似を考えるとバツXX行列とX、我々は知っていることをXが最良の低ランク近似値であるX。バツ^X^\hat Xバツ^X^\hat XバツXX これはによるとされる誘発∥は⋅ ∥は2∥⋅∥2\parallel \cdot \parallel_2規範（すなわち最大固有値規範）やフロベニウスに応じ∥は⋅ ∥はF∥⋅∥F\parallel \cdot \parallel_F標準？

26 pca svd matrix-decomposition

7

行列の列間の線形依存性のテスト

行列式がゼロのセキュリティリターンの相関行列があります。（サンプル相関行列と対応する共分散行列は理論的には正定でなければならないため、これは少し驚くべきことです。）私の仮説は、少なくとも1つの証券が他の証券に線形に依存しているということです。Rに線形依存関係の各列を順番にテストする関数がありますか？たとえば、1つのアプローチは、相関行列を一度に1つのセキュリティで構築し、各ステップで行列式を計算することです。行列式= 0の場合、他の証券の線形結合である証券を特定したため停止します。そのような行列の線形依存性を特定する他の技術が評価されます。

26 r correlation pca linear-model svd

タグ付けされた質問 「pca」

タグ付けされた質問「pca」