アンケートの検証

12

論文のアンケートを作成しています。私は、クロンバッハのアルファテストを最初のサンプルグループに適用したアンケートを検証しています。アンケートへの回答はリッカートスケールです。誰でも、その妥当性をテストするために適用するテストを提案できますか私は統計の専門家ではありませんので、どんな助けでも感謝します。

私はいくつかの研究を行ってきましたが、このテストとアドバイスを適用するためのフリーソフトウェアサイトを持っている人がいるなら、ラッシュ分析を行うことができますか？

— ttnphns
ソース

22

私はあなたのアンケートが1つの一次元スケールとみなされると仮定します（そうでなければ、クロンバッハのアルファはあまり意味をなさない）。それを確認するには、探索的因子分析を実行する価値があります。また、アイテムがスケールにどのように関連しているかを確認することもできます（つまり、負荷を介して）。

アイテムとスケールを検証するための基本的な手順は次のとおりです。

アイテムの基本統計（範囲、四分位数、中心傾向、天井と床の影響がある場合）に関する完全なレポート。
アルファで行ったように内部の一貫性をチェックします（サンプルに依存しているため、95％の信頼区間を与えてください）。
通常の統計（ヒストグラム+密度、分位数など）を使用して、要約尺度（例：合計または平均スコア、別名スケールスコア）を説明します。
評価対象の構造に関連すると思われる特定の共変量に対して要約応答を確認します。これは既知グループの有効性と呼ばれます。
可能であれば、同じコンストラクト（同時または収束の有効性）を測定することを目的とする既知の手段に対して要約応答を確認してください。

スケールが単次元ではない場合、これらの手順は各サブスケールに対して実行する必要があります。また、因子の相関行列を抽出して2次因子構造を評価することもできます（または構造方程式モデリング、または確認因子分析を使用する、またはあなたが望むものなら、なんでも）。また、多特性スケーリングまたは多特性マルチメソッドモデリング（スケール内およびスケール間のアイテム間相関に基づく）、またはSEMを使用して、収束および判別の有効性を評価することもできます。

それから、アンケートを短くしたり、差分アイテムの機能を示すアイテムを除外したり、ある種のコンピューター適応テストでテストを使用したりしない限り、アイテム応答理論はあまり役に立ちません。

いずれにしても、Raschモデルはバイナリアイテム用です。ポリトーマスオーダーアイテムの場合、最も一般的に使用されるモデルは次のとおりです。

段階的な応答モデル
部分信用モデル
評価尺度モデル。

後者の2つのみがRaschファミリーのものであり、基本的に隣接するオッズ公式を使用します。対象は、特定の応答カテゴリを承認するためにいくつかのしきい値を「通過」する必要があるという考えです。これらの2つのモデルの違いは、シータ（能力、または潜在特性上の被験者の位置）スケールでしきい値が等間隔であることをPCMが課していないことです。段階的応答モデルは累積オッズの定式化に依存しています。これらのモデルはすべて、スケールが単次元であると想定していることに注意してください。つまり、潜在的な特性は1つだけです。たとえば、局所的な独立性などの追加の仮定があります（つまり、応答間の相関関係は、能力スケールの変動によって説明されます）。

とにかく、Journal of Statistics Software：Special Volume：Psychometrics in Rのボリューム20には、Rに心理測定法を適用するための非常に完全なドキュメントと有用な手がかりがあります。基本的に、私が日常業務で使用する最も興味深いRパッケージは次のとおりです。ltm、 ERM、サイケ、PSY。その他は、CRANタスクビューPsychometricsで参照されます。その他の興味深いリソースは次のとおりです。

心理学実験およびアンケートへのRの使用に関する注記
Rを心理学的研究に使用する（W. Revelleは実際にRの心理測定に関する本を書いています）
PsychoRのプロジェクト（それはしかし、IRTと規模開発に注力しません）。

スケール開発でのFAとIRTの使用に関する適切なレビューは、スケールの構築と実際の評価で見つけることができます：因子分析とアイテム応答理論アプリケーションのレビュー 10ホルトら（心理テストおよび評価モデル（2010）によって、 52（3）：272-297）。

— chl
ソース

11

上記のすべてをサポートしながら、次のことを行うことをお勧めします（同様の順序で）

まず、Rを使用する必要があります。そうでない場合は、開始する必要があります。以下のアドバイスは、Rの使用を前提としています。

この時点で、記述統計などを計算したと仮定します。そうでない場合、psychパッケージにはdescribe（）関数があり、必要な統計を提供します。

CRANからpsychパッケージをインストールします。psychパッケージをロードします。データに対してfa.parallelルーチンを使用します。これにより、保持する多くの要素が得られます。次に、VSS（ルーチン）を使用します。これにより、異なる（通常）保持する要因の数を与えるMAP基準が計算されます。因子分析の形式（主成分ではない）と因子の数ごとの斜め回転を使用します。斜め回転後に因子が相関していないように見える場合は、直交回転に切り替えます。これは、斜交回転から直交構造を決定できるが、その逆ではないためです。

MAP基準と並列分析基準の間のすべての因子ソリューションを抽出します。これらのどれが最適なインデックスを持ち、最も意味があるかを決定します。これは保持する必要があるものです。

IRTでは、ltmとeRmの両方を使用したため、eRmから始めることをお勧めします。モデルに適したグラフィック機能を備えており、ポリトーマスモデルのサポートが強化されています。とはいえ、これはRaschモデルにのみ適合し、多くの場合、心理学的アンケートのデータはそれらの要件を満たしていません。幸運を！あなたが間違いなく発見するように、サイコメトリックスはとても楽しいです。

— リッチーモリスロー
ソース

1

（+1）それはいいですね。IRTモデリングとFAの経験を共有していただきありがとうございます。グラフィック機能とは別に、eRmの条件付きアプローチは、Raschによるシータ（固定パラメーターとして）の初期の考え方に沿ったものです。

— -chl

1

アンケートの検証とは、アンケートの測定対象を測定することを証明することです。ですから、これはほとんど統計的な質問ではなく、アンケートの具体的な内容を知らないと答えることができません。クロンバックのアルファは、妥当性についてではなく、やや信頼性に関連している内部整合性、程度（または1つは、それが言うことができるですご質問を推定信頼性は互換性があります-しかし、彼らはありませんよ）。

それでは、アンケートを検証するために何ができますか？どの心理学的プロセスが結果の特定のパターンを引き起こすかを研究することができます（たとえば、実験的操作でそのようなパターンを誘発しようとするか、思考-大声の手順を使用して["protocol analysis"、Ericsson＆Simon、1992]）。または、スコアが異なるはずの対照的なグループ（対照患者など）を比較します。または、測定している特性と相関させる必要のある外部基準と相関させます。または、Psychoscope（TM）で特性を測定し、それを基準として使用します。

他の答えは、あなたがおそらく現実的にできることを指摘するのに役立ちます-厳密に言えば、その大部分は有効性に関するものではありません（例：Chiの「既知のグループの有効性」と外部の有効性に関する言及）。

有効性に対する最新のアプローチについては、Markus＆Borsboom（2013）も参照してください（これとその他の参考文献@ Borsboomのホームページ）。

— レバツノク
ソース