タグ付けされた質問 「factor-analysis」

因子分析は、相互相関変数を因子と呼ばれるより少数の連続潜在変数に置き換える次元削減潜在変数手法です。要因は相互相関の原因であると考えられています。[確認要因分析には、タグ 'confirmatory-factor'を使用してください。また、因子分析の「因子」という用語を、回帰/ ANOVAのカテゴリー予測子としての「因子」と混同しないでください。]

14
因子分析と主成分分析の違いは何ですか?
私が使用する統計パッケージの多くは、これら2つの概念をまとめているようです。ただし、一方を他方に対して使用するために真実でなければならない異なる仮定またはデータの「形式」があるのではないかと思っています。実際の例は信じられないほど便利です。


6
EFAの代わりにPCAを使用する正当な理由はありますか?また、PCAは因子分析の代わりになりますか?
一部の分野では、PCA(主成分分析)が正当化されることなく体系的に使用され、PCAとEFA(探索的因子分析)は同義語と見なされます。 そのため、最近、PCAを使用してスケール検証研究の結果を分析しました(7ポイントのリッカートスケールで21項目、それぞれ7項目の3つの因子を構成すると仮定)。両方の手法の違いについて読みましたが、ここでの回答の大部分では、PCAに対してEFAが好まれているようです。 PCAの方が適している理由には、何か理由がありますか?私の場合、どのようなメリットがあり、なぜ賢明な選択になるのでしょうか?

2
独立成分分析と因子分析の関係は何ですか?
私は独立成分分析(ICA)を初めて使用し、メソッドの基本的な理解しかありません。ICAは、1つの例外を除いて、因子分析(FA)に似ているように思われます:ICAは、観測されたランダム変数が非ガウスの独立成分/因子の線形結合であると仮定しますが、従来のFAモデルは、観測されたランダム変数相関のあるガウス成分/因子の線形結合です。 上記は正確ですか?

8
PCAの後に回転(バリマックスなど)が続いているのはまだPCAですか?
私はRのSPSSから(PCAを使用して)いくつかの研究を再現しようとしました。私の経験では、パッケージからのprincipal() 関数はpsych、出力に一致する唯一の関数でした(または私の記憶が正しければ、完全に機能します)。SPSSと同じ結果を一致させるには、parameterを使用する必要がありましたprincipal(..., rotate = "varimax")。私は論文がPCAをどのようにしたかについて話しているのを見てきましたが、SPSSの出力と回転の使用に基づいて、それは因子分析のように聞こえます。 質問:PCAは、(を使用してvarimax)回転した後でもPCAですか?私はこれが実際に因子分析であるかもしれないという印象を受けていました...もしそうでない場合、どのような詳細が欠けていますか?

2
PCAが分散を説明する一方で、因子分析はどのように共分散を説明しますか?
ビショップの「パターン認識と機械学習」の本のセクション12.2.4「因子分析」からの引用です。 ハイライトされた部分によると、因子分析は行列変数間の共分散をキャプチャしWWW。私は不思議どのように? ここに私がそれを理解する方法があります。たとえば、は観測された次元変数、は因子負荷行列、は因子スコアベクトルです。次につまり および各列は、ベクトルを読み込む因子 ここに書いたように、はxxxpppWWWzzzx=μ+Wz+ϵ,x=μ+Wz+ϵ,x=\mu+Wz+\epsilon,⎛⎝⎜⎜x1⋮xp⎞⎠⎟⎟=⎛⎝⎜⎜μ1⋮μp⎞⎠⎟⎟+⎛⎝⎜|w1|…|wm|⎞⎠⎟⎛⎝⎜⎜z1⋮zm⎞⎠⎟⎟+ϵ,(x1⋮xp)=(μ1⋮μp)+(||w1…wm||)(z1⋮zm)+ϵ,\begin{align*} \begin{pmatrix} x_1\\ \vdots\\ x_p \end{pmatrix} = \begin{pmatrix} \mu_1\\ \vdots\\ \mu_p \end{pmatrix} + \begin{pmatrix} \vert & & \vert\\ w_1 & \ldots & w_m\\ \vert & & \vert \end{pmatrix} \begin{pmatrix} z_1\\ \vdots\\ z_m \end{pmatrix} +\epsilon, \end{align*}WWWwi=⎛⎝⎜⎜wi1⋮wip⎞⎠⎟⎟.wi=(wi1⋮wip).w_i=\begin{pmatrix}w_{i1}\\ \vdots\\ w_{ip}\end{pmatrix}.WWWmmm検討中の要因がことを意味する列。mmm ハイライトされた部分によると、ここにポイントがあります。各列w_iの負荷wiwiw_iは、観測されたデータの共分散を説明すると思いますか? 例えば、まずはローディングベクトルを見てみましょうw1w1w_1ため、1≤i,j,k≤p1≤i,j,k≤p1\le i,j,k\le p場合、w1i=10w1i=10w_{1i}=10、w1j=11w1j=11w_{1j}=11およびw1k=0.1w1k=0.1w_{1k}=0.1次に、xixix_iとxjxjx_jは非常に相関しているとxkxkx_k思いますが、x_kはそれらとは無相関のようですが、そうですか? そして、これが因子分析が観測された特徴間の共分散を説明する方法である場合、PCAも共分散を説明すると思いますよね?

3
PCAまたはFAのスコアまたは負荷のサインには意味がありますか?記号を逆にすることはできますか?
2つの異なる関数(prcompおよびprincomp)を使用してRで主成分分析(PCA)を実行し、PCAスコアの符号が異なることを観察しました。どうすればいいの? このことを考慮: set.seed(999) prcomp(data.frame(1:10,rnorm(10)))$x PC1 PC2 [1,] -4.508620 -0.2567655 [2,] -3.373772 -1.1369417 [3,] -2.679669 1.0903445 [4,] -1.615837 0.7108631 [5,] -0.548879 0.3093389 [6,] 0.481756 0.1639112 [7,] 1.656178 -0.9952875 [8,] 2.560345 -0.2490548 [9,] 3.508442 0.1874520 [10,] 4.520055 0.1761397 set.seed(999) princomp(data.frame(1:10,rnorm(10)))$scores Comp.1 Comp.2 [1,] 4.508620 0.2567655 [2,] 3.373772 1.1369417 [3,] 2.679669 -1.0903445 [4,] …
37 r  pca  factor-analysis 

1
因子分析/ PCAで回転を行う背後にある直感的な理由と、適切な回転を選択する方法は何ですか?
私の質問 因子分析で因子(またはPCAのコンポーネント)の回転を行う背後にある直感的な理由は何ですか? 私の理解では、変数が最上位のコンポーネント(または要因)にほぼ均等にロードされる場合、コンポーネントを区別することは明らかに困難です。そのため、この場合、回転を使用してコンポーネントをより適切に区別できます。これは正しいです? 回転を行うとどうなりますか?これは何に影響しますか? 適切なローテーションを選択する方法は?直交回転と斜め回転があります。これらの選択方法と、この選択の意味は何ですか? 最小限の数式で直感的に説明してください。広範にわたる答えはほとんどありませんでしたが、私は直感的な理由と経験則でもっと探しています。

3
相関または共分散に関するPCA:相関に関するPCAは意味をなしますか?[閉まっている]
主成分分析(PCA)では、共分散行列または相関行列のいずれかを選択して、(それぞれの固有ベクトルから)成分を見つけることができます。両方の行列間の固有ベクトルが等しくないため、これらは異なる結果(PCの負荷とスコア)を与えます。私の理解では、これは生データベクトルとその標準化が直交変換を介して関連付けられないという事実によって引き起こされるということです。数学的には、類似した行列(つまり、直交変換によって関連付けられた行列)は同じ固有値を持ちますが、必ずしも同じ固有ベクトルを持つとは限りません。XXXZZZ これは私の心にいくつかの困難を引き起こします: PCAは、同じ開始データセットに対して2つの異なる答えを得ることができ、両方とも同じことを達成しようとする場合(=最大分散の方向を見つける)、実際に意味がありますか? 相関行列アプローチを使用する場合、PCを計算する前に、各変数は独自の標準偏差によって標準化(スケーリング)されます。それでは、データが事前に異なる方法でスケーリング/圧縮されている場合、最大分散の方向を見つけることは依然としてどのように意味がありますか?相関ベースのPCAは非常に便利です(標準化された変数は無次元なので、線形結合を追加できます。他の利点も実用性に基づいています)が正しいのでしょうか。 (変数の分散が大きく異なる場合でも)共分散ベースのPCAのみが真に正しいものであり、このバージョンを使用できない場合は、相関ベースのPCAも使用すべきではないようです。 私はこのスレッドがあることを知っています:相関または共分散のPCA?-しかし、それは実用的な解決策を見つけることにのみ焦点を当てているようです。


5
機械学習で階層/ネストされたデータを処理する方法
例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
因子分析における最高の因子抽出方法
SPSSは、因子抽出のいくつかの方法を提供します。 主成分(これは因子分析ではありません) 重みなし最小二乗 一般化最小二乗 最尤法 主軸 アルファ因数分解 画像ファクタリング 因子分析(ただし主成分分析、PCA)ではない最初の方法を無視すると、これらの方法のうちどれが「最良」ですか?さまざまな方法の相対的な利点は何ですか?そして基本的に、使用するものをどのように選択しますか? 追加の質問:6つの方法すべてから同様の結果を取得する必要がありますか?

1
順序データまたはバイナリデータの因子分析またはPCAはありますか?
主成分分析(PCA)、探索的因子分析(EFA)、および確認的因子分析(CFA)を完了し、リッカートスケール(5レベルの応答:なし、少し、いくつか、..)変数。次に、Lavaanを使用して、変数をカテゴリカルとして定義するCFAを繰り返しました。 データが通常の順序である場合、どのタイプの分析が適切で、PCAおよびEFAに相当するかを知りたいと思います。そして、バイナリのとき。 また、このような分析のために簡単に実装できる特定のパッケージまたはソフトウェアの提案も歓迎します。

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.