統計とビッグデータ psychometrics

2

因子分析、内部一貫性、およびアイテム応答理論を組み合わせて使用して、アイテムの数を減らす方法は？

私は経験的にアンケートを作成している最中であり、この例では任意の数字を使用して説明します。文脈のために、私は不安障害を持つ個人で一般的に特定される思考パターンを評価することを目的とした心理学的アンケートを作成しています。アイテムは、「オーブンがオフになっていることを確認できないため、オーブンを繰り返しチェックする必要があります」のように見えます。 1つまたは2つの要素で構成される20の質問（5点リッカート）があります（実際には、10のスケールで構成される200の質問があり、各スケールは2つの要素で構成されることに注意してください）。約半分の項目を消去して、2つの要因のいずれかに10の質問を残します。探索的因子分析（EFA）、内部整合性（クロンバッハのアルファ）、アイテム応答理論（IRT）のアイテム特性曲線に精通しています。これらのメソッドのいずれかを使用して、単一のスケール内でどのアイテムが「悪い」かを判断する方法がわかります。それぞれの方法が異なる質問に答えることに感謝しますが、それらは同様の結果につながる可能性があり、どの「質問」が最も重要かはわかりません。始める前に、これらの各メソッドで何をしているのかを個別に確認してください。 EFAを使用して、要因の数を特定し、それぞれの要因で最も負荷が少ない（たとえば<.30とする）項目、または実質的に要因間で相互に負荷をかける項目を削除します。内部整合性を使用して、「アルファがアイテムを削除した場合」の悪いアイテムを削除します。スケール内の1つの因子を想定して行うことも、初期EFAの後に因子の数を特定し、その後各因子に対してアルファを実行することもできます。 IRTを使用して、（5リッカート）応答オプションに沿って関心のある要因を評価しないアイテムを削除します。私はアイテムの特性曲線を目撃します。基本的には、リッカートスケールのオプション1から潜在スコアに沿って最大5までの45度の角度の線を探します。1つの因子を仮定してこれを行うことも、最初の EFAの後に因子の数を特定し、その後各因子の曲線を実行することもできます。どのアイテムが「最悪」であるかを最も適切に特定するために、これらの方法のどれを使用するかわかりません。広義の最悪の場合は、信頼性または有効性のいずれかの観点から項目が測定値を損なうように使用します。どちらも私にとって同様に重要です。おそらく私はそれらを一緒に使用することができますが、どうすればいいのかわかりません。私が今知っていることを進めて、ベストショットを与えるとしたら、次のようにします。 EFAを実行して、多くの要因を特定します。また、他の分析でどのように動作するかに関係なく、負荷が大きくないアイテムが必要ないため、それぞれの要因で負荷が低いアイテムを削除します。 IRTを実行し、EFAから残っている場合は、その分析によって判断された不良アイテムも削除します。 CronbachのAlphaを報告するだけで、アイテムを削除する手段としてそのメトリックを使用しないでください。一般的なガイドラインは大歓迎です！また、おそらく回答できる特定の質問のリストもあります。因子負荷に基づいてアイテムを削除することと、Chronbachのアルファに基づいてアイテムを削除することの実際的な違いは何ですか（両方の分析に同じ因子レイアウトを使用すると仮定）？どちらを先にすればいいですか？EFAとIRTを1つの要素で行い、両方とも削除する必要がある異なるアイテムを特定すると仮定すると、どの分析を優先する必要がありますか？ Chronbachのアルファを報告しますが、これらの分析をすべて行うことに苦労しているわけではありません。IRTだけを行うと、何かが足りなくなるだけでなく、EFAだけでも同じように感じます。

12 factor-analysis reliability psychometrics latent-variable validity

3

アンケートの検証

論文のアンケートを作成しています。私は、クロンバッハのアルファテストを最初のサンプルグループに適用したアンケートを検証しています。アンケートへの回答はリッカートスケールです。誰でも、その妥当性をテストするために適用するテストを提案できますか私は統計の専門家ではありませんので、どんな助けでも感謝します。私はいくつかの研究を行ってきましたが、このテストとアドバイスを適用するためのフリーソフトウェアサイトを持っている人がいるなら、ラッシュ分析を行うことができますか？

12 survey scales psychometrics scale-construction

2

R初心者向けのアイテム分析

20項目のマルチプル選択テストを評価しようとしています。この例で見られるようなアイテム分析を実行したいと思います。したがって、質問ごとに、P値、合計との相関、および選択したオプションの分布が必要です。さまざまな統計ソフトウェアパッケージについては何も知りませんが、プログラミングに慣れており、Rはオープンソースであるため、Rを使用したいと思います。私が想定している擬似ワークフローは次のとおりです。 Excelでデータを準備し、CSVにエクスポートする Rにデータをロードする必要なことを行うパッケージをロードするそのパッケージのコマンドを実行するエクスポートとレポート。私は1と2には自信がありますが、おそらくCRANで閲覧したパッケージを比較する統計用語がないので、3には問題があります。 ltm適切なパッケージになりそうですが、私にはわかりません。どのパッケージを使用しても、コマンドはどうなりますか？サイドの質問：リンクされた例では、MCとMIは何を表していると思いますか？

12 r correlation psychometrics scales

2

オメガ対アルファの信頼性

オメガとアルファの信頼性の主な違いは何ですか？次の図に示すように、オメガの信頼性は階層的因子モデルに基づいており、アルファは平均のアイテム間の相関を使用しています。私が理解していないのは、どのような条件で、オメガ信頼性係数がアルファ係数よりも高くなるか、またはその逆ですか？サブファクターと変数の間の相関がより高い場合、オメガ係数もより高くなると仮定できますか（上の図に示されているように）？アドバイスは大歓迎です！

11 reliability scales psychometrics

4

公開されたリッカート尺度の項目数を有効に減らすことはできますか？

[フィードバックに応じて行われた編集-感謝:-)] どー！さらに編集！ごめんなさい！こんにちは- 私は、モラールや他のそのような問題について公表された尺度を使用してヘルスケアスタッフに送信される調査で、かなりラフで準備が整ったデータ収集を行っています。唯一のことは、スケールは調査の他のすべてのものと比べてかなり長いことです。私は、各サブスケールを半分にカットし、アイテムの半分だけを使用することでサイズを縮小したいと考えています。私の直感では、サブスケールは相互に相関しているため、これで問題ありません。出版基準の調査には理想的ではありませんが、組織内の事実を少しでも発見しても問題ありません。これを行うことの有効性、落とし穴、または他の何かについて誰かが何か考えを持っているのではないかと思いました。私の同僚には説得力のあるものが必要なので、特に参考文献はありがたいです。どうもありがとう、クリスB 編集- はい、それは既知の心理測定特性を持つ検証済みのスケールです。一次元であり、サブスケールがあります。アイテムレベルではなく、サブスケールレベルと合計レベルで作業します。 30アイテム、おそらく約40-60個人。乾杯！

11 psychometrics scales reliability likert

6

n点リッカート尺度データを二項プロセスからのn回の試行として扱うことは適切ですか？

少なくとも両極端のスケールでこれらの仮定に違反しているという合理的な期待がある場合に、人々がリッカートスケールのデータを分析して、エラーが連続的でガウス的であるかのように分析する方法が好きではありません。次の代替案についてどう思いますか：応答がポイントスケールで値をとる場合、そのデータを回の試行に拡張しますの値は1で、の値は0です。したがって、リッカートスケールでの応答はあたかもは、隠れた一連の二項試験の明白な集合体です（実際、認知科学の観点から、これは実際には、そのような意思決定シナリオに関与するメカニズムの魅力的なモデルです）。展開されたデータを使用して、ランダム効果として回答者を指定し（複数の質問がある場合はランダム効果として質問も）、二項リンク関数を使用して誤差分布を指定する混合効果モデルを使用できます。kkkんんnんんnkkkn − kん−kn-k 誰もがこのアプローチの仮定違反や他の有害な側面を見ることができますか？

11 binomial psychometrics likert psychology

3

それらが存在する場合、より多くの要素を抽出する方が常に良いですか？

主成分分析とは異なり、因子分析モデルのソリューションは必ずしもネストされていません。つまり、最初の因子のみが抽出された場合と最初の2つの因子が抽出された場合では、最初の因子の負荷（たとえば）は必ずしも同じではありません。このことを念頭に置いて、相関性の高い一連のマニフェスト変数があり、その内容の理論的知識によって単一の要素によって駆動される必要がある場合を考えてみます。探索的因子分析（並列分析、スクリープロット、固有値> 1など）が因子があることを強く示唆していると想像してください。マニフェスト変数と因子解を使用して、最初の因子の参加者の値を推定（つまり、因子スコアを取得）することに関心があります。このシナリオでは、次の方がよいでしょう。222 因子モデルを近似して111因子のみを抽出し、因子スコア（など）を取得する、または因子モデルを近似して両方の因子を抽出し、因子の因子スコアを取得しますが、2番目の因子のスコアを破棄/無視しますか？どちらがより良い実践であるのか、なぜですか？この問題に関する調査はありますか？

11 references factor-analysis psychometrics

2

スピアマンブラウンの予言式は、さまざまな困難の問題の影響を受けますか？

スピアマンブラウンの予言式の結果は、難易度の異なるテスト問題を抱えていることや、評価が簡単または難しい評定者にどのように影響されますか。尊敬されているテキストの1つは、SBが影響を受けると述べていますが、詳細は示していません。（下の引用を参照してください。） Guion、R. M（2011）。人事決定の評価、測定、予測、第2版。477ページ「スピアマンブラウン方程式を使用して評価者をプールすることで信頼性を高めることができます。単一の評価の信頼性が.50の場合、2、4、または6つの並列評価の信頼性は約.67、.80になります。、およびそれぞれ.86」（Houston、Raymond、＆Svec、1991、p。409）。統計的推定は、すべてが想定どおりに進んだ場合に予想されるものの「平均的」な声明であることを単語がおおよそ認識しているため、この引用が好きです。それを超えて、手術の言葉は平行しています。たとえば、1つの評価者が体系的に寛容である場合、評価の平均化（またはSpearman-Brownの使用）は、単に想定に適合しません。エッセイがそれぞれ2つの評価者によって評価され、一方がもう一方より寛容である場合、問題は、難易度が等しくない（非並行形式）の2つの多肢選択テストを使用する問題に似ています。異なる（不等）テストフォームに基づくスコアは比較できません。したがって、それは寛大で難しい評価者を混合することです。プールされた評価の信頼性は、古典的なテスト理論のスピアマンブラウン方程式によって誤って推定されます。各裁判官が構成を少し異なるように定義すると、問題はさらに悪化します。」

10 reliability psychometrics

2

Rによる二分データの因子分析の推奨手順

二分変数（0 =はい、1 =いいえ）で構成されるデータセットに対して因子分析を実行する必要があり、正しい方向に進んでいるかどうかわかりません。を使用しtetrachoric()て、実行する相関行列を作成しますfa(data,factors=1)。結果はMixFactorを使用したときに受け取る結果に非常に近いですが、同じではありません。これは大丈夫ですか、それとも別の手順をお勧めしますか？なぜfa()仕事とfactanal()エラーが発生しますか？（Fehler in solve.default(cv) : System ist für den Rechner singulär: reziproke Konditionszahl = 4.22612e-18）

10 r factor-analysis psychometrics binary-data

1

クラス内相関係数対F検定（一元配置分散分析）？

クラス内相関係数と一元配置分散分析について少し混乱しています。私が理解しているように、どちらも、グループ内の観測値が他のグループの観測値とどの程度類似しているかを示しています。誰かがこれをもう少しよく説明できますか、そしておそらく各方法がより有利である状況を説明できますか？

10 anova psychometrics reliability intraclass-correlation

4

このバイナリ予測問題にどのように取り組むべきですか？

次の形式のデータセットがあります。二元的転帰がん/がんなしがあります。データセット内のすべての医師は、すべての患者を診察し、患者ががんであるかどうかについて独立した判断を下しています。医師は、自分の診断が正しいことを5のうちの信頼レベルで示し、括弧内に信頼レベルが表示されます。このデータセットから適切な予測を取得するために、さまざまな方法を試しました。医師の信頼水準を無視して、医師全体の平均をとることは、私にとってはかなりうまくいきます。上の表では、患者1と患者2に対して正しい診断が得られますが、患者3が癌であると誤って言っているはずです。 2人の医師を無作為に抽出する方法も試しました。2人の医師が互いに同意しない場合は、どちらがより自信がある医師に決定票が投じられます。この方法は、多くの医師に相談する必要がないという点で経済的ですが、エラー率もかなり高くなります。私は2人の医師をランダムに選択する関連する方法を試しました。彼らが互いに同意しない場合は、さらに2人の医師をランダムに選択します。1つの診断が少なくとも2つの「投票」で進んでいる場合、その診断を支持して解決します。そうでない場合は、より多くの医師をサンプリングし続けます。この方法はかなり経済的で、あまりミスをしません。もっと洗練されたやり方が足りないと感じて仕方がありません。たとえば、データセットをトレーニングセットとテストセットに分割し、診断を組み合わせるための最適な方法を考え出して、それらの重みがテストセットでどのように機能するかを確認できる方法があるかどうか疑問に思います。1つの可能性は、試験セットで間違いを犯し続けた医師の体重を減らし、おそらく自信を持って行われた診断の体重を増やすことのできるある種の方法です（信頼度はこのデータセットの正確さと相関します）。私はこの一般的な説明に一致するさまざまなデータセットを持っているので、サンプルサイズは異なり、すべてのデータセットが医師/患者に関連しているわけではありません。ただし、この特定のデータセットには40人の医師がおり、それぞれ108人の患者を診察しています。編集：これは、 @ jeremy-milesの回答を読んで得られた重みの一部へのリンクです。重み付けされていない結果は最初の列にあります。実際、このデータセットでは、最大の信頼値は4でした。これは先ほど間違って言った5ではありません。したがって、@ jeremy-milesのアプローチに従うと、どの患者も加重されていない最も高いスコアは7になります。つまり、文字通りすべての医師が、その患者ががんであるという信頼レベル4を主張しました。患者が得ることができる最低の加重されていないスコアは0です。これは、すべての医師がその患者に癌がなかったことを信頼レベル4で主張したことを意味します。 α=KK−1(1−∑σ2xiσ2T)α=KK−1(1−∑σxi2σT2)\alpha = \frac{K}{K-1}\left(1-\frac{\sum \sigma^2_{x_i}}{\sigma^2_T}\right)KKK∑σ2xi∑σxi2\sum \sigma^2_{x_i}σ2TσT2\sigma^2_Tα=4040−1(1−8.7915200.7112)=0.9807α=4040−1(1−8.7915200.7112)=0.9807\alpha = \frac{40}{40-1}\left(1-\frac{8.7915}{200.7112}\right)=0.9807 合計アイテム相関による重み付け。すべてのアイテムの相関関係をすべて計算し、相関関係のサイズに比例して各医師に重みを付けます。回帰係数による重み付け。私がまだ確信が持てないことの1つは、どの方法が他の方法よりも「優れている」かを言う方法です。以前は、パーススキルスコアなどの計算を行っていました。これは、バイナリ予測とバイナリ結果があるインスタンスに適しています。しかし、今では0から1ではなく0から7の範囲の予測があります。すべての加重スコア> 3.50から1、およびすべての加重スコア<3.50から0に変換する必要がありますか？

9 forecasting binary-data psychometrics

1

スケールの信頼性の測定（Cronbachのアルファなど）とコンポーネント/要素の負荷の関係は何ですか？

心理学の研究のように、理論的には少数のスケールで構成されている一連のアンケート項目のスコアを含むデータセットがあるとします。ここでの一般的なアプローチは、クロンバッハのアルファなどを使用してスケールの信頼性を確認し、スケールの項目を集計してスケールスコアを形成し、そこから分析を続けることです。しかし、因子分析もあります。これは、すべてのアイテムスコアを入力として受け取り、それらが一貫した因子を形成していることを通知します。負荷や共同性などを調べることにより、これらの要素がどの程度強力であるかを知ることができます。私にはこれは同じようなもののように聞こえますが、はるかに詳細です。スケールの信頼性がすべて優れていても、EFAはどのアイテムがどのスケールに適しているかを修正することがありますよね？あなたはおそらくクロスローディングを取得するでしょうし、単純なスケール合計よりも派生因子スコアを使用する方が理にかなっているかもしれません。これらのスケールを後の分析（回帰やANOVAなど）に使用する場合、信頼性が維持される限り、スケールを集計する必要がありますか？または、CFAのようなものです（スケールが適切な要素として保持されるかどうかをテストするテスト。これは、「信頼性」と同じものを測定しているようです）。私は両方のアプローチを個別に教えられてきたので、それらがどのように一緒に使用できるか、どちらがどのコンテキストに適しているかなど、それらがどのように関連しているかは本当にわかりません。この場合、優れた研究実践のための決定木はありますか？何かのようなもの：予測されたスケールアイテムに従ってCFAを実行する CFAが適切な適合を示している場合は、因子スコアを計算し、それらを分析に使用します。 CFAの適合性が低い場合は、代わりにEFAを実行し、探索的アプローチ（または何か）を実行します。因子分析と信頼性テストは、実際には同じことへの別のアプローチですか、それとも私はどこかで誤解していますか？

9 factor-analysis reliability psychometrics cronbachs-alpha scale-construction

1

EFAは明らかに1要素をサポートし、測定値は内部的に一貫していますが、CFAは適合性が低いですか？

私は、10項目の自己報告メジャーの心理測定特性を調査しています。2つの独立したサンプルで約400のケースがあります。アイテムは4ポイントリッカートスケールで完成します。EFAは明らかに1要素の解（たとえば、最初の固有値が6を超え、他はすべて1未満）をサポートし、クロンバッハのアルファは優れています（たとえば、.90）。アイテムと合計の相関が低いアイテムはありません。私はもともとCFAを実行したいと思っていました（EFAはCFAが良くないことを確認した後の単なるフォローアップでした）単要素モデルをテストしました。驚いたことに、モデルへの適合は比較的不十分でした。 CFI=.91 TLI=.88 RMSEA=.13 さらに、各アイテムのロードは非常に良好です（0.65以上）。奇妙なことにSRMR=.05、これは許容可能/良好です。修正インデックスは、私がいたるところにエラーを関連付けることを示唆しています。そうすることの明確な合理性があった場合（たとえば、いくつかの項目は非常に類似した文言を持っている）、私はこれを行うでしょう。ただし、すべての測定値は同じように表現されており、すべての誤差項を関連付けることは奇妙で苦痛でしょう。このようなケースを見たことがありません。指標は内部的に一貫しており、明らかにEFAの1つの要素で構成されていますが、CFAでの適合性は不十分です。結果は両方の独立したサンプル（異なる大陸から）で一致しています。私は2因子CFA（5つのランダムな項目をグループ化）を試してみましたが、適合は同じか、わずかに優れていました。ここに私の質問があります： EFA / Cronbachアルファ/因子の負荷を考えると、CFI / TLI / RMSEAによる適合はなぜそれほど悪いのですか？なぜSRMRは良いのに他のインデックスはそうでないのですか？私はそれらが異なるものを測定することを知っていますが、私の経験では、ほとんど常に収束します。エラーのいくつかを関連付ける必要がありますか？アイテムの例：あなたは自分の欠点について考えていますあなたは忘れることが難しい考えを持っていますあなたはいつも状況を考えています

9 factor-analysis survey psychometrics psychology confirmatory-factor

1

クロンバッハのアルファは直感的に何ですか？

クロンバックのアルファを直感的に理解しようとしています。この構成の背後にある一般的な考え方は何ですか？彼らが持っていることを確認するために彼らはどんな特性を試みていましたか？

8 reliability measurement-error psychometrics intuition cronbachs-alpha

3

分布を見つけて正規分布に変換する

1時間にイベントが発生する頻度（「1時間あたりの数」、nph）とイベントが持続する時間（「1秒あたりの秒数」、dph）を説明するデータがあります。これは元のデータです： nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, 15.3750000002237, NA, 6.00000000004109, 9.71428571436649, 12.4848484848485, 16.5034965037115, 20.6666666666667, 3.49999999997453, 4.65882352938624, 4.74999999996544, 3.99999999994522, 2.8, 14.2285714286188, 11.0000000000915, NA, 2.66666666666667, 3.76470588230138, 4.70588235287673, 13.2727272728677, 2.0000000000137, 18.4444444444444, 17.5555555555556, 14.2222222222222, 2.00000000001663, 4, 8.46153846146269, 19.2000000001788, 13.9024390245481, 13, 3.00000000004366, NA, …

8 normal-distribution data-transformation logistic generalized-linear-model ridge-regression t-test wilcoxon-signed-rank paired-data naive-bayes distributions logistic goodness-of-fit time-series eviews ecm panel-data reliability psychometrics validity cronbachs-alpha self-study random-variable expected-value median regression self-study multiple-regression linear-model forecasting prediction-interval normal-distribution excel bayesian multivariate-analysis modeling predictive-models canonical-correlation rbm time-series machine-learning neural-networks fishers-exact factorisation-theorem svm prediction linear reinforcement-learning cdf probability-inequalities ecdf time-series kalman-filter state-space-models dynamic-regression index-decomposition sampling stratification cluster-sample survey-sampling distributions maximum-likelihood gamma-distribution

タグ付けされた質問 「psychometrics」

タグ付けされた質問「psychometrics」