回答:
私はあなたのアンケートが1つの一次元スケールとみなされると仮定します(そうでなければ、クロンバッハのアルファはあまり意味をなさない)。それを確認するには、探索的因子分析を実行する価値があります。また、アイテムがスケールにどのように関連しているかを確認することもできます(つまり、負荷を介して)。
アイテムとスケールを検証するための基本的な手順は次のとおりです。
スケールが単次元ではない場合、これらの手順は各サブスケールに対して実行する必要があります。また、因子の相関行列を抽出して2次因子構造を評価することもできます(または構造方程式モデリング、または確認因子分析を使用する、またはあなたが望むものなら、なんでも)。また、多特性スケーリングまたは多特性マルチメソッドモデリング(スケール内およびスケール間のアイテム間相関に基づく)、またはSEMを使用して、収束および判別の有効性を評価することもできます。
それから、アンケートを短くしたり、差分アイテムの機能を示すアイテムを除外したり、ある種のコンピューター適応テストでテストを使用したりしない限り、アイテム応答理論はあまり役に立ちません。
いずれにしても、Raschモデルはバイナリアイテム用です。ポリトーマスオーダーアイテムの場合、最も一般的に使用されるモデルは次のとおりです。
後者の2つのみがRaschファミリーのものであり、基本的に隣接するオッズ公式を使用します。対象は、特定の応答カテゴリを承認するためにいくつかのしきい値を「通過」する必要があるという考えです。これらの2つのモデルの違いは、シータ(能力、または潜在特性上の被験者の位置)スケールでしきい値が等間隔であることをPCMが課していないことです。段階的応答モデルは累積オッズの定式化に依存しています。これらのモデルはすべて、スケールが単次元であると想定していることに注意してください。つまり、潜在的な特性は1つだけです。たとえば、局所的な独立性などの追加の仮定があります(つまり、応答間の相関関係は、能力スケールの変動によって説明されます)。
とにかく、Journal of Statistics Software:Special Volume:Psychometrics in Rのボリューム20には、Rに心理測定法を適用するための非常に完全なドキュメントと有用な手がかりがあります。基本的に、私が日常業務で使用する最も興味深いRパッケージは次のとおりです。ltm、 ERM、サイケ、PSY。その他は、CRANタスクビューPsychometricsで参照されます。その他の興味深いリソースは次のとおりです。
スケール開発でのFAとIRTの使用に関する適切なレビューは、スケールの構築と実際の評価で見つけることができます:因子分析とアイテム応答理論アプリケーションのレビュー 10ホルトら(心理テストおよび評価モデル(2010)によって、 52(3):272-297)。
上記のすべてをサポートしながら、次のことを行うことをお勧めします(同様の順序で)
まず、Rを使用する必要があります。そうでない場合は、開始する必要があります。以下のアドバイスは、Rの使用を前提としています。
この時点で、記述統計などを計算したと仮定します。そうでない場合、psychパッケージにはdescribe()関数があり、必要な統計を提供します。
CRANからpsychパッケージをインストールします。psychパッケージをロードします。データに対してfa.parallelルーチンを使用します。これにより、保持する多くの要素が得られます。次に、VSS(ルーチン)を使用します。これにより、異なる(通常)保持する要因の数を与えるMAP基準が計算されます。因子分析の形式(主成分ではない)と因子の数ごとの斜め回転を使用します。斜め回転後に因子が相関していないように見える場合は、直交回転に切り替えます。これは、斜交回転から直交構造を決定できるが、その逆ではないためです。
MAP基準と並列分析基準の間のすべての因子ソリューションを抽出します。これらのどれが最適なインデックスを持ち、最も意味があるかを決定します。これは保持する必要があるものです。
IRTでは、ltmとeRmの両方を使用したため、eRmから始めることをお勧めします。モデルに適したグラフィック機能を備えており、ポリトーマスモデルのサポートが強化されています。とはいえ、これはRaschモデルにのみ適合し、多くの場合、心理学的アンケートのデータはそれらの要件を満たしていません。幸運を!あなたが間違いなく発見するように、サイコメトリックスはとても楽しいです。
アンケートの検証とは、アンケートの測定対象を測定することを証明することです。ですから、これはほとんど統計的な質問ではなく、アンケートの具体的な内容を知らないと答えることができません。クロンバックのアルファは、妥当性についてではなく、やや信頼性に関連している内部整合性、程度(または1つは、それが言うことができるですご質問を推定信頼性は互換性があります-しかし、彼らはありませんよ)。
それでは、アンケートを検証するために何ができますか?どの心理学的プロセスが結果の特定のパターンを引き起こすかを研究することができます(たとえば、実験的操作でそのようなパターンを誘発しようとするか、思考-大声の手順を使用して["protocol analysis"、Ericsson&Simon、1992])。または、スコアが異なるはずの対照的なグループ(対照患者など)を比較します。または、測定している特性と相関させる必要のある外部基準と相関させます。または、Psychoscope(TM)で特性を測定し、それを基準として使用します。
他の答えは、あなたがおそらく現実的にできることを指摘するのに役立ちます-厳密に言えば、その大部分は有効性に関するものではありません(例:Chiの「既知のグループの有効性」と外部の有効性に関する言及)。
有効性に対する最新のアプローチについては、Markus&Borsboom(2013)も参照してください(これとその他の参考文献@ Borsboomのホームページ)。