タグ付けされた質問 「factor-analysis」

因子分析は、相互相関変数を因子と呼ばれるより少数の連続潜在変数に置き換える次元削減潜在変数手法です。要因は相互相関の原因であると考えられています。[確認要因分析には、タグ 'confirmatory-factor'を使用してください。また、因子分析の「因子」という用語を、回帰/ ANOVAのカテゴリー予測子としての「因子」と混同しないでください。]

2
コンストラクトの独立性の決定における探索的因子分析と確認的因子分析の違い
研究者はしばしば非常に類似した項目を持つ2つの尺度を使用し、異なることを測定すると主張します(例えば、「車の周りにいるといつも心配」、「車が怖い」など)。仮想尺度を「自動車の恐怖」尺度と「自動車スケールからの不安」と呼びましょう。異なる潜在的な構成要素を実際に評価するか、同じものを測定するか、経験的にテストすることに興味があります。 私がこれを行うために考えられる2つの最良の方法は、探索的工場分析(EFA)または確認的因子分析(CFA)によるものです。EFAは、すべてのアイテムを制約なしに自由にロードできるため、良いと思います。2つのスケールの項目が同じ要因でロードされる場合、メジャーは異なるものをあまりうまく評価していない可能性が高いと結論付けることができます。ただし、事前定義されたモデルをテストするので、CFAの利点もわかります。たとえば、すべてのアイテムが単一の要因にロードされるモデルの適合度を比較したり(つまり、異なる構成要素を評価しない)、アイテムが期待されるメジャーに分離されたりします。CFAの問題は、代替モデル(3因子モデルなど)を実際には考慮しないことだと思います。 議論の目的のために、おそらく私はミックスに投入したい他の2つの非常に類似した尺度(例えば、車の不安アンケートと車の恐怖の評価のためのスケール)があるかもしれないと考えてみましょう! 2つのメジャーが異なる構成を評価するかどうかを統計的に決定するにはどうすればよいですか?

2
因子分析、内部一貫性、およびアイテム応答理論を組み合わせて使用​​して、アイテムの数を減らす方法は?
私は経験的にアンケートを作成している最中であり、この例では任意の数字を使用して説明します。文脈のために、私は不安障害を持つ個人で一般的に特定される思考パターンを評価することを目的とした心理学的アンケートを作成しています。アイテムは、「オーブンがオフになっていることを確認できないため、オーブンを繰り返しチェックする必要があります」のように見えます。 1つまたは2つの要素で構成される20の質問(5点リッカート)があります(実際には、10のスケールで構成される200の質問があり、各スケールは2つの要素で構成されることに注意してください)。約半分の項目を消去して、2つの要因のいずれかに10の質問を残します。 探索的因子分析(EFA)、内部整合性(クロンバッハのアルファ)、アイテム応答理論(IRT)のアイテム特性曲線に精通しています。これらのメソッドのいずれかを使用して、単一のスケール内でどのアイテムが「悪い」かを判断する方法がわかります。それぞれの方法が異なる質問に答えることに感謝しますが、それらは同様の結果につながる可能性があり、どの「質問」が最も重要かはわかりません。 始める前に、これらの各メソッドで何をしているのかを個別に確認してください。 EFAを使用して、要因の数を特定し、それぞれの要因で最も負荷が少ない(たとえば<.30とする)項目、または実質的に要因間で相互に負荷をかける項目を削除します。 内部整合性を使用して、「アルファがアイテムを削除した場合」の悪いアイテムを削除します。スケール内の1つの因子を想定して行うことも、初期EFAの後に因子の数を特定し、その後各因子に対してアルファを実行することもできます。 IRTを使用して、(5リッカート)応答オプションに沿って関心のある要因を評価しないアイテムを削除します。私はアイテムの特性曲線を目撃します。基本的には、リッカートスケールのオプション1から潜在スコアに沿って最大5までの45度の角度の線を探します。1つの因子を仮定してこれを行うことも、最初の EFAの後に因子の数を特定し、その後各因子の曲線を実行することもできます。 どのアイテムが「最悪」であるかを最も適切に特定するために、これらの方法のどれを使用するかわかりません。広義の最悪の場合は、信頼性または有効性のいずれかの観点から項目が測定値を損なうように使用します。どちらも私にとって同様に重要です。おそらく私はそれらを一緒に使用することができますが、どうすればいいのかわかりません。 私が今知っていることを進めて、ベストショットを与えるとしたら、次のようにします。 EFAを実行して、多くの要因を特定します。また、他の分析でどのように動作するかに関係なく、負荷が大きくないアイテムが必要ないため、それぞれの要因で負荷が低いアイテムを削除します。 IRTを実行し、EFAから残っている場合は、その分析によって判断された不良アイテムも削除します。 CronbachのAlphaを報告するだけで、アイテムを削除する手段としてそのメトリックを使用しないでください。 一般的なガイドラインは大歓迎です! また、おそらく回答できる特定の質問のリストもあります。 因子負荷に基づいてアイテムを削除することと、Chronbachのアルファに基づいてアイテムを削除することの実際的な違いは何ですか(両方の分析に同じ因子レイアウトを使用すると仮定)? どちらを先にすればいいですか?EFAとIRTを1つの要素で行い、両方とも削除する必要がある異なるアイテムを特定すると仮定すると、どの分析を優先する必要がありますか? Chronbachのアルファを報告しますが、これらの分析をすべて行うことに苦労しているわけではありません。IRTだけを行うと、何かが足りなくなるだけでなく、EFAだけでも同じように感じます。

5
PCAを使用してクラスター分析の変数を選択できますか?
クラスター分析を行うには、変数の数を減らす必要があります。私の変数は強く相関しているので、因子分析 PCA(主成分分析)を行うことを考えました。ただし、結果のスコアを使用する場合、クラスターはあまり正確ではありません(文献の以前の分類と比較して)。 質問: 回転行列を使用して、各コンポーネント/ファクターの負荷が最も大きい変数を選択し、これらの変数のみをクラスタリングに使用できますか? 書誌参照も参考になります。 更新: いくつかの明確化: 私の目標: SPSSによる2ステップアルゴリズムを使用してクラスター分析を実行する必要がありますが、変数は独立していないため、それらの一部を破棄することを考えました。 私のデータセット: 100,000ケースの15個のスカラーパラメータ(変数)に取り組んでいます。一部の変数は強く相関しています( Pearson)> 0.9>0.9>0.9 疑い: 独立変数のみが必要なので、主成分分析を実行し(申し訳ありませんが、元の質問で間違って因子分析について話しました、私の間違い)、各成分の負荷が最も大きい変数のみを選択します。PCAプロセスにはいくつかの任意のステップがあることは知っていますが、この選択は、変数を選択するためにITジョリフ(1972および2002)によって提案され、1999年にJRキングおよびDAジャクソンによって提案された「メソッドB4。 そのため、この方法で独立変数のサブグループを選択することを考えていました。次に、グループを使用してさまざまなクラスター分析を実行し、結果を比較します。

2
因子分析の最初の
主成分分析では、最初のkkk主成分は、分散が最大のkkk 直交方向です。言い換えると、第1主成分は最大分散の方向になるように選択され、第2主成分は最大分散を持つ第1主成分に直交する方向になるように選択されます。 因子分析にも同様の解釈がありますか?たとえば、最初の要因は、元の相関行列の非対角成分を最もよく説明する要因であると考えています(たとえば、元の相関行列と、要因)。これは本当ですか(または、私たちが言える類似の何かがありますか)?kkk

3
離散的な順序応答からの因子スコア
序数の離散変数がある場合に、因子スコアを推定する原則的な方法はありますか。 私が持っている序、ディスクリート、変数を。各応答の根底にある連続正規分布変数であると仮定すると、n × nの多項相関行列を計算できます。次に、このマトリックスで因子分析を実行し、各変数の因子負荷を取得できます。nnnn × nn×nn\times n 因子負荷と変数を組み合わせて因子スコアを推定するにはどうすればよいですか。スコアを推定する一般的な方法では、順序データを間隔として扱う必要があります。 リンク関数を理解するために、ポリコリック相関の根底を掘り下げる必要があると思います。

1
動的因子分析と状態空間モデル
RのMARSSパッケージは、動的因子分析のための機能を提供します。このパッケージでは、動的因子モデルは、状態空間モデルの特殊な形式として記述され、共通の傾向がAR(1)プロセスに従うと想定しています。私はこれらの2つの方法にあまり詳しくないので、2つの質問が出てきます。 動的因子分析は、状態空間モデルの特別な形式ですか?これら2つの方法の違いは何ですか? さらに、動的因子分析は、AR(1)プロセスとして一般的な傾向を想定する必要はありません。季節的なARIMA(またはその他の)プロセスとして共通の傾向を可能にするパッケージはありますか?

2
因子ローテーションメソッド(varimax、obliminなど)-名前の意味とメソッドの役割
因子分析には、varimax、quartimax、equamax、promax、obliminなど、いくつかの回転方法があります。名前と実際の数学的または統計的処理とを関連付ける情報を見つけることができません。「equa-max」または「quarti-max」と呼ばれるのはなぜですか?軸や行列がどのように回転して、そのような名前が付けられますか? 残念ながら、それらのほとんどは1950年代から1970年代に発明されたので、著者に連絡することはできません。

3
因子分析の前提条件は何ですか?
[クラシック、線形] 因子分析(FA)、特にFAの前(および場合によっては後で)に行われる仮定を本当に理解しているかどうかを確認したいと思います。 一部のデータは最初に相関する必要があり、それらの間には可能な線形関係があります。因子分析を行った後、データは通常分布され(各ペアの2変量分布)、因子(共通と詳細)の間に相関はなく、1つの因子の変数と他の因子の変数の間に相関はありません。 それが正しいか?

3
それらが存在する場合、より多くの要素を抽出する方が常に良いですか?
主成分分析とは異なり、因子分析モデルのソリューションは必ずしもネストされていません。つまり、最初の因子のみが抽出された場合と最初の2つの因子が抽出された場合では、最初の因子の負荷(たとえば)は必ずしも同じではありません。 このことを念頭に置いて、相関性の高い一連のマニフェスト変数があり、その内容の理論的知識によって単一の要素によって駆動される必要がある場合を考えてみます。探索的因子分析(並列分析、スクリープロット、固有値> 1など)が因子があることを強く示唆していると想像してください。マニフェスト変数と因子解を使用して、最初の因子の参加者の値を推定(つまり、因子スコアを取得)することに関心があります。 このシナリオでは、次の方がよいでしょう。222 因子モデルを近似して111因子のみを抽出し、因子スコア(など)を取得する、または 因子モデルを近似して両方の因子を抽出し、因子の因子スコアを取得しますが、2番目の因子のスコアを破棄/無視しますか? どちらがより良い実践であるのか、なぜですか? この問題に関する調査はありますか?

3
共分散行列が正定でないときに因子分析を行う方法は?
33の変数(列)によって記述される717の観測(行)で構成されるデータセットがあります。データは、すべての変数をzスコアリングすることによって標準化されます。2つの変数が線形従属ではありません()。また、分散が非常に小さい(0.1未満)すべての変数を削除しました。以下の図は、対応する相関行列(絶対値)を示しています。r = 1r=1r=10.10.10.1 factoranMatlabで次のように使用して因子分析を実行しようとすると: [Loadings1,specVar1,T,stats] = factoran(Z2,1); 次のエラーが表示されます。 The data X must have a covariance matrix that is positive definite. 問題がどこにあるか教えていただけませんか?使用されている変数間の相互依存性が低いためですか?また、どうすればいいですか? 私の相関行列:

7
国の種類を特定するためのデータ削減手法
私は経済地理学の入門コースを教えています。生徒が現代の世界経済に見られる国の種類をよりよく理解し、データ削減手法を理解できるように、さまざまな国の類型を作成する課題を作成したいと思います(たとえば、高所得の高所得国付加価値製造の平均余命、高所得の天然資源輸出、中高寿命、ドイツが最初のタイプの要素、イエメンが2番目のタイプの例です)。これは、一般に入手可能なUNDPデータを使用します(これを正しく思い出せば、200か国未満の社会経済データが含まれています。申し訳ありませんが、地域データはありません)。 この割り当ての前に、これらに同じ変数間の相関関係を調べるように(同じ間隔(主に間隔または比率レベル)を使用して)要求する別の割り当てがあります。 私の希望は、彼らが最初に異なる変数間の種類の関係(たとえば、平均余命と富の[さまざまな指標]の間の正の関係、富と輸出の多様性の間の正の関係)について直感を養うことです。次に、データ削減手法を使用すると、コンポーネントまたは要素は直感的に理解できます(たとえば、要素/コンポーネント1は富の重要性を捉え、要素/コンポーネント2は教育の重要性を捉えます)。 これらは2年目から4年目の学生であり、より一般的に分析的思考への露出が限られていることが多いので、2番目の課題に最も適切な単一のデータ削減手法はどれですか。これらは人口データであるため、推論統計(p-vlauesなど)は実際には必要ありません。


1
因子分析でバイナリ変数のピアソン相関(四重相関の代わりに)を計算する危険性は何ですか?
私は教育用ゲームの研究を行っています。現在のプロジェクトのいくつかは、BoardGameGeek(BGG)とVideoGameGeek(VGG)のデータを使用して、ゲームの設計要素間の関係を調べています(つまり、「第二次世界大戦の始まり」、「ローリングダイスを含む」)。 )およびそれらのゲームのプレイヤーの評価(つまり、10点満点)。これらの各設計要素は、BGGまたはVGGシステムのタグに対応しているため、各要素は本質的に二分変数です。ゲームには、データベースに存在するすべてのタグに1があり、存在しないすべてのタグに0があります。 これらのタグは数十あるので、探索的要因分析(EFA)を使用して、ゲームデザインのパターンをキャプチャする管理可能な数の「ジャンル」を考え出します。いくつかの情報源を調べて、私は二分変数を扱っているので、私の要因を思い付くとき、ピアソンの相関の代わりにポリコリック相関(特にここではテトラコリック)を使用する必要があることを理解しています(潜在特性分析などの他のオプションもあります—そこにありますが、これは私が今探っているものです)。 好奇心から、ピアソン相関を使用する因子とポリコリック相関を使用する因子(それぞれ同じ数の因子)の2組の因子を思いつきました。私の問題は、ピアソン相関を使用して計算された因子は、ポリコリック相関を使用して計算された因子よりもはるかに意味があり、解釈が容易であることです。つまり、最初の要素セットの「ジャンル」は直感的に理解でき、ゲームの一般的な設計方法に関する私の理解と一致しています。これは、2番目の要素セットには当てはまりません。 一方では、使用しているテストの前提を満たしていることを確認したいのですが、それによって結果が見栄えが悪くなります。一方で、因子分析と(より広範には)モデル構築の目標の一部は有用なものを生み出すことであると感じ、私が「ルールを破る」ときに、より有用な情報が浮かび上がってきます。このテストの仮定に違反することを上回るのに十分なモデルが必要ですか?ポリコリック相関の代わりにピアソン相関を使用すると、どのような結果になりますか?

2
探索的因子分析ソリューションを回転させずにおく理由はありますか?
探索的因子分析ソリューションをローテーションしない理由はありますか? 直交解と斜め解を比較する議論を見つけるのは簡単で、私はそのすべてを完全に理解していると思います。また、私が教科書で見つけたものから、著者は通常、因子分析の推定方法を説明することから、回転がどのように機能するか、いくつかの異なるオプションが何であるかを説明することにまっすぐ進みます。私が見たことがないのは、そもそもローテーションを行うべきかどうかという議論です。 おまけとして、因子を推定する複数の方法(たとえば、主成分法と最尤法)に有効な任意のタイプのローテーションに対して誰かが議論を提供できたら、私は特に感謝します。

3
因子分析で因子によって読み込まれるアイテム(変数)が2つ(またはそれ以下)だけであっても問題ありませんか?
SPSSで因子分析を行った20個の変数のセットがあります。研究のために、私は6つの要因を開発する必要があります。SPSSは、8つの変数(20のうち)が低い重みでロードされているか、いくつかの要因によって等しくロードされていることを示したため、それらを削除しました。残りの12個の変数は、6つの要素の2つのペアで読み込まれています。これは完全な構造です。私が望んでいたとおりですが、私と一緒に働いている教授の1人が、なぜ(またはどのような条件下で)正当化するのかを求めています因子分析は、因子ごとに3つ以上の項目がロードされた結果で有用であることが一般に知られているため、因子ごとに2項目のみを保持することが適切です。 誰かがこの問題について、できれば公開されたリファレンスも助けてくれますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.