タグ付けされた質問 「factor-analysis」

因子分析は、相互相関変数を因子と呼ばれるより少数の連続潜在変数に置き換える次元削減潜在変数手法です。要因は相互相関の原因であると考えられています。[確認要因分析には、タグ 'confirmatory-factor'を使用してください。また、因子分析の「因子」という用語を、回帰/ ANOVAのカテゴリー予測子としての「因子」と混同しないでください。]

4
PCAまたはFAの最小サンプルサイズは、主な目標が数個のコンポーネントのみを推定することである場合ですか?
観測値と個の変数(次元)を含むデータセットがあり、通常は小さい()、は小さい()からおそらくはるかに大きい()。p n n = 12 − 16 p p = 4 − 10 p = 30 − 50nnnpppnnnn = 12 − 16n=12−16n=12-16pppp = 4 − 10p=4−10p = 4-10p = 30 − 50p=30−50p= 30-50 主成分分析(PCA)または因子分析(FA)を実行するには、がよりもはるかに大きい必要があることを覚えていますが、これは私のデータではそうではないようです。私の目的では、PC2を過ぎた主要コンポーネントにはほとんど興味がないことに注意してください。pnnnppp 質問: PCAを使用しても問題ない場合とそうでない場合の最小サンプルサイズの経験則は何ですか? またはあっても最初の数台のPCを使用しても大丈夫ですか?n &lt; pn=pn=pn=pn&lt;pn&lt;pn<p これに関する参照はありますか? あなたの主な目標がPC1とおそらくPC2を使用することであるかどうかは重要ですか? 単にグラフィカルに、または 次に、合成変数として回帰で使用されますか?

4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

2
因子スコアを計算する方法、およびPCAまたは因子分析の「スコア係数」マトリックスとは何ですか?
私の理解では、相関に基づくPCAでは、変数(この場合は主成分)の負荷を取得しますが、これは変数と因子間の相関にすぎません。SPSSで因子スコアを生成する必要がある場合、各因子の各回答者の因子スコアを直接取得できます。また、「コンポーネントスコア係数行列」(SPSSによって生成される)に標準化された元の変数を掛けると、SPSSから取得したものと同じファクタースコアが得られることも観察しました。 「コンポーネントスコア係数マトリックス」または「ファクタースコア係数マトリックス」(ファクターまたはコンポーネントスコアを計算できる)がどのように計算されるかを誰かが理解してくれますか?この行列では、計算係数スコアのさまざまな方法がどのように異なりますか?

4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
同じデータセットに対するPCAと探索的因子分析:相違点と類似点。因子モデルとPCA
同じデータセットに対して主成分分析(PCA)と探索的因子分析(EFA)を実行することが論理的に意味があるかどうかを知りたいです。専門家が明示的に推奨することを聞いたことがあります: 分析の目的が何であるかを理解し、データ分析にPCAまたはEFAを選択します。 1つの分析を行った後、他の分析を行う必要はありません。 私はこの2つの動機付けの違いを理解していますが、PCAとEFAが同時に提供する結果の解釈に何か問題があるのではないかと思っていましたか?

1
変数とPCAコンポーネント(バイプロット/ローディングプロット上)との適切な関連付けの尺度は何ですか?
私はFactoMineR、測定値のデータセットを潜在変数に減らすために使用しています。 上記の変数のマップは私が解釈するのは明らかであるが、それは、変数マップを見て、変数と部品1の間の関連付けに来るとき、私は混乱しています、ddpとcov非常に近いマップ内のコンポーネントにある、とddpAbs少し遠いです離れて。しかし、これは相関関係が示すものではありません: $Dim.1 $Dim.1$quanti correlation p.value jittAbs 0.9388158 1.166116e-11 rpvi 0.9388158 1.166116e-11 sd 0.9359214 1.912641e-11 ddpAbs 0.9327135 3.224252e-11 rapAbs 0.9327135 3.224252e-11 ppq5 0.9319101 3.660014e-11 ppq5Abs 0.9247266 1.066303e-10 cov 0.9150209 3.865897e-10 npvi 0.8853941 9.005243e-09 ddp 0.8554260 1.002460e-07 rap 0.8554260 1.002460e-07 jitt 0.8181207 1.042053e-06 cov5_x 0.6596751 4.533596e-04 ps13_20 -0.4593369 2.394361e-02 ps5_12 -0.5237125 …

3
リッカート項目で構成されるアンケートの因子分析
以前は、心理測定の観点からアイテムを分析していました。しかし今、私は動機や他のトピックに関する他のタイプの質問を分析しようとしています。これらの質問はすべてリッカート尺度に基づいています。私の最初の考えは、要因分析を使用することでした。なぜなら、いくつかの根本的な次元を反映するように質問が仮定されているからです。 しかし、因子分析は適切ですか? 次元に関する各質問を検証する必要がありますか? リッカート項目の因子分析の実行に問題はありますか? リッカートやその他のカテゴリー項目について因子分析を実施する方法に関する優れた論文や方法はありますか?

2
PCA / FAから保持された複数の主成分または因子から単一のインデックスを作成する
主成分分析(PCA)を使用して、研究に必要なインデックスを作成しています。私の質問は、PCAで計算された保持主成分を使用して、単一のインデックスを作成する方法です。 たとえば、PCAを使用した後、3つの主成分を保持することにし、これら3つの主成分のスコアを計算しました。回答者ごとに、これら3つのスコアから単一のインデックスを作成する適切な方法は何ですか? 3つの計算されたスコアを追加して複合値を取得することは重要ですか? または、3つのスコアを平均してそのような値を得るには? または、最初の主成分(最強)のみを保持し、そのスコアをインデックスとして使用する必要がありますか? あるいは、因子分析(FA)を使用することもできますが、同じ質問が残ります。複数の因子スコアに基づいて単一のインデックスを作成する方法ですか?

1
「ヘイウッドケース」の正確な定義は何ですか?
私は、「ヘイウッドケース」という用語を多少非公式に使用して、オンラインの「有限応答」反復更新された分散の推定値が、数値精度の問題により負になった状況を指していました。(Welfordのメソッドのバリアントを使用してデータを追加し、古いデータを削除しています。)数値誤差またはモデリング誤差により分散推定値が負になったが、同僚が私の用語の使用法で混乱しています。グーグル検索は、因子分析で使用されることを除いて、あまり検索されず、負の分散推定の結果を参照しているようです。正確な定義は何ですか?そして、元のヘイウッドは誰でしたか?

1
「因子分析の基本定理」はPCAにどのように適用されますか、またはPCAの負荷はどのように定義されますか?
現在、「因子分析」用のスライドセットを調べています(私が知る限り、PCA)。 その中で、「因子分析の基本定理」が導き出され、分析に入るデータの相関行列()は因子負荷の行列()を使用して回復できると主張しています。ARR\bf RAA\bf A R = A A⊤R=AA⊤\bf R = AA^\top しかし、これは私を混乱させます。PCAでは、「因子負荷」の行列は、データの共分散/相関行列の固有ベクトルの行列で与えられます(データが標準化されていると仮定しているため、それらは同じです)。長さ1。この行列は直交しているため、一般にと等しくないです。RA A⊤= 私AA⊤=私\bf AA^\top = IRR\bf R

1
Rを使用した二分データ(バイナリ変数)の因子分析の例を介してステップを探しています
バイナリ変数のみのいくつかの二分データがあり、上司は四分相関行列を使用して因子分析を実行するように頼みました。私は以前、ここにある例とUCLAのstatサイトなどのサイトに基づいて異なる分析を実行する方法を自分自身に教えることができましたが、二分法の因子分析の例を通してステップを見つけることはできないようです。 Rを使用したデータ(バイナリ変数) 私が見たのCHLの応答ややまねの質問には、私も見ましたttnphns'答えを、私はもっと何かを探しています綴ら、私が一緒に働くことができる例を通してステップ。 ここの誰かが、Rを使用したバイナリ変数の因子分析の例を通してそのようなステップを知っていますか? 更新2012-07-11 22:03:35Z また、3次元の確立された機器で作業していることを追加する必要があります。これにいくつかの質問を追加し、4つの異なる次元を見つけたいと考えています。さらに、サンプルサイズはのみで、現在個のアイテムがあります。サンプルサイズとアイテムの数をいくつかの心理学の記事と比較しましたが、間違いなく低価格ですが、とにかく試してみたかったのです。しかし、これは私が探しているステップスルーの例にとって重要ではなく、以下のカラカルの例は本当に素晴らしいようです。朝一番に自分のデータを使って作業を進めます。n = 153n=153n=153191919

5
探索的因子分析によるRとSPSS間の矛盾の解釈
私はコンピューターサイエンスの大学院生です。私は研究プロジェクトのためにいくつかの探索的因子分析を行ってきました。私の同僚(プロジェクトを率いる)はSPSSを使用しますが、私はRを使用することを好みます。これは、2つの統計パッケージ間に大きな不一致を発見するまで問題ではありませんでした。 抽出方法として主軸ファクタリングを使用しています(PCAと因子分析の違いを十分に認識しており、少なくとも意図的にPCAを使用していないことに注意してください)。私が読んだことから、これはRの「主軸」メソッド、およびRのドキュメントによると SPSSの「主軸因数分解」または「非加重最小二乗」のいずれかに対応するはずです。相関因子を期待し、パターンマトリックスを解釈しているため、斜め回転法(具体的にはpromax)を使用しています。 RとSPSSで2つの手順を実行すると、大きな違いがあります。パターン行列はさまざまな負荷を与えます。これにより、変数関係にほぼ同じ要因が与えられますが、対応する負荷には最大0.15の差があります。これは、抽出方法とプロマックス回転の異なる実装によって予想されるよりも大きいようです。しかし、それは最も驚くべき違いではありません。 要因によって説明される累積分散は、SPSS結果で約40%、R結果で31%です。これは大きな違いであり、Rの代わりにSPSSを使用することを同僚に求めています。これには問題はありませんが、大きな違いがあるため、何かを間違って解釈している可能性があると思います。これは問題です。 SPSSは、水をさらに濁らせて、非加重最小二乗ファクタリングを実行すると、さまざまな種類の説明された分散を報告します。初期固有値による説明された分散の割合は40%ですが、抽出平方和(SSL)からの説明された分散の割合は33%です。これにより、初期固有値は見るのに適切な数ではないと思うようになります(これは回転の前に説明された分散であると思われますが、それは非常に大きいのですが)。さらに紛らわしいことに、SPSSはRotation SSLも表示しますが、説明された分散の割合を計算しません(相関係数があるため、SSLを追加して合計分散を見つけることができないことを教えてくれます。Rから報告されたSSLはこれらのいずれにも一致せず、Rは合計分散の31%を表すと教えてくれます。RのSSLは、ローテーションSSLと最も密接に一致します。元の相関行列からのRの固有値は、SPSSからの初期固有値と一致します。 また、私はさまざまな方法を使用して遊んでいましたが、SPSSのULSとPAFはRのPA方法に最も近いようです。 私の具体的な質問: 因子分析の実装では、RとSPSSの間でどの程度の違いが予想されますか? SPSSからの二乗荷重の和、初期固有値、抽出、回転のどれを解釈する必要がありますか? 私が見落としていたかもしれない他の問題はありますか? SPSSおよびRへの私の呼び出しは次のとおりです。 SPSS: FACTOR /VARIABLES &lt;variables&gt; /MISSING PAIRWISE /ANALYSIS &lt;variables&gt; /PRINT INITIAL KMO AIC EXTRACTION ROTATION /FORMAT BLANK(.35) /CRITERIA FACTORS(6) ITERATE(25) /EXTRACTION ULS /CRITERIA ITERATE(25) /ROTATION PROMAX(4). R: library(psych) fa.results &lt;- fa(data, nfactors=6, rotate="promax", scores=TRUE, fm="pa", oblique.scores=FALSE, max.iter=25)

2
評価スコアと推定因子スコアの合計?
スケールを構築する際に、スコアの単純な合計に対して「ファクタスコア」を使用するタイミングについての提案を受け取りたいと思います。すなわち、因子をスコアリングする「洗練されていない」方法よりも「洗練された」。DiStefanoらから。(2009; pdf)、強調が追加されました: 因子スコアの計算方法には、改良型と非改良型の2つの主要なクラスがあります。洗練されていない方法は、因子分布に関する個人の配置に関する情報を提供する比較的単純な累積手順です。シンプルさは、いくつかの魅力的な機能に役立ちます。つまり、洗練されていないメソッドは、計算も解釈も簡単です。洗練された計算方法は、より高度で技術的なアプローチを使用して因子スコアを作成します。 これらは、洗練されていない方法よりも正確で複雑であり、標準化されたスコアである推定値を提供します。 私の考えでは、目標が研究や設定全体で使用できるスケールを作成することである場合、すべてのスケール項目の単純な合計または平均スコアが理にかなっています。しかし、目標はプログラムの治療効果を評価することであり、重要な対照はサンプル内の治療対対照群にあるとしましょう。合計または平均をスケールするために因子スコアを好む理由はありますか? 代替案を具体的にするには、次の簡単な例をご覧ください。 library(lavaan) library(devtools) # read in data from gist ====================================================== # gist is at https://gist.github.com/ericpgreen/7091485 # this creates data frame mydata gist &lt;- "https://gist.github.com/ericpgreen/7091485/raw/f4daec526bd69557874035b3c175b39cf6395408/simord.R" source_url(gist, sha1="da165a61f147592e6a25cf2f0dcaa85027605290") head(mydata) # v1 v2 v3 v4 v5 v6 v7 v8 v9 # 1 3 4 3 4 3 3 …

1
PCAで行われたステップと比較した因子分析で行われたステップ
PCA(主成分分析)の実行方法は知っていますが、因子分析に使用する手順を知りたいです。 PCAを実行するために、たとえば、マトリックス考えてみましょう。AAA 3 1 -1 2 4 0 4 -2 -5 11 22 20 私はその相関行列を計算しましたB = corr(A): 1.0000 0.9087 0.9250 0.9087 1.0000 0.9970 0.9250 0.9970 1.0000 次に[V,D] = eig(B)、固有値分解を行い、固有ベクトルを作成しました。 0.5662 0.8209 -0.0740 0.5812 -0.4613 -0.6703 0.5844 -0.3366 0.7383 および固有値: 2.8877 0 0 0 0.1101 0 0 0 0.0022 111 PCAの手順と比較して、因子分析の手順を理解してください。

1
隠れマルコフモデルで「最適な」モデルを選択するための基準
データの潜在状態の数を推定するために、隠れマルコフモデル(HMM)を近似しようとする時系列データセットがあります。これを行うための私の擬似コードは次のとおりです。 for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest BIC" ... } さて、通常の回帰モデルでは、BICは最もpar約的なモデルを好む傾向がありますが、HMMの場合、それが何をしているのかわかりません。BIC基準がどのようなHMMの傾向があるのか​​を実際に知っている人はいますか?また、AICと尤度値も取得できます。州の真の総数を推測しようとしているので、これらの基準の1つは、この目的のために他の基準よりも「優れている」のでしょうか。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.