アイテム応答理論の適用を開始する方法と使用するソフトウェアは?


21

コンテキスト

私はアイテム反応理論について読んでいますが、それは魅力的です。私は基本を理解していると思いますが、その地域に関連する統計的手法をどのように適用するのか疑問に思っています。以下は、ITRを適用したい分野に類似した2つの記事です。

2つ目は、この時点で実際に拡張したいものです。

jMetrikという無料のプログラムをダウンロードしましたが、うまく機能しているようです。IRTに関しては基本的すぎると思いますが、よくわかりません。

「最良の」方法にはRの学習が含まれる可能性が高いことを知っています。ただし、その学習曲線に取り組む時間を割くことができるかどうかはわかりません。ソフトウェアを購入するための資金はいくらかありますが、私が見る限り、素晴らしいIRTプログラムは存在しないようです。

ご質問

  • jMetrikの有効性についてどう思いますか?
  • IRTの適用をどのように進めますか?
  • IRTを適用するのに最適なプログラムは何ですか?
  • IRTを定期的に使用している人はいますか?もしそうなら、どのように?

1
現在使用しているソフトウェアは何ですか?
StasK

私はjMetrikを使用しています。それは非常に新しいようで、私が興味を持っている多くのことをやっています!
Behacad

2
スクリプトモードで動作しますか?GUIしかない場合、結果を再現するのは非常に困難です。深刻なソフトウェアには、スクリプトモードが必須です。
StasK

回答:


22

IRTの手始めとして、アイテム応答理論のビジュアルガイドを読むことを常にお勧めします

利用可能なソフトウェアの調査については、www.rasch.orgをご覧ください

私の経験から、Raschtest(および関連する)Stataコマンドは、1つのパラメーターモデルの近似に関心があるほとんどの場合に非常に便利であることがわかりました。より複雑な設計の場合、GLLAMMに頼ることができます。De BoeckとWilsonの著書であるExplanatory Item and Response Models(Springer、2004)に基づいた実例があります。

特にRについては、過去5年間で利用可能になったパッケージがたくさんあります。たとえば、関連するCRAN タスクビューを参照してください。それらのほとんどは、Journal of Statistics Software(vol。20、2007)の特別号で議論されています。別の応答で説明したように、ltmeRmは、広範囲のIRTモデルに適合することができます。推定の異なる方法に依存しているため--- 限界アプローチを使用し、条件付きアプローチを使用---どちらを選択するかは、主に適合させるモデルの問題です(ltmeRmeRm 以下の2つの論文で説明されているように、人のパラメーターの条件付き推定にはいくつかの優れた心理測定特性がありますが、限界アプローチでは混合効果モデルに簡単に切り替えることができます:

MCMCメソッドを使用してRaschモデルに適合する可能性もいくつかあります。たとえば、MCMCpackパッケージ(またはWinBUGS / JAGSを参照してください。ただし、アイテム応答理論のバグコード(JSS(2010)36)を参照してください)。

IRTモデリング用のSASの経験がないので、SASプログラミングに詳しい人にそれを教えます。

他の専用ソフトウェア(主に教育評価で使用されます)には、RUMM、Conquest、Winsteps、BILOG / MULTILOG、Mplus(ウィキペディアですでに利用可能なリストは引用していません)が含まれます。自由に使用できるものはありませんが、一部の製品には期間限定のデモ版が提案されています。私が見つかりました。jMetrikは、私が(1年前)それを試みたときに、非常に限定されるものではなく、すべての機能は、同様にRにすでに用意されていConstructMapが安全に置き換えることができlme4に示すように、配布資料の上にリンク。mdltmvon Davier and coll。による混合Raschモデルについては、(Multidimensional Discrete Latent Trait Models)にも言及する必要があります。多変量および混合分布Raschモデル(Springer、2007)。


素晴らしい!非常に包括的な答えをありがとう!これらの答えは両方とも私をうまく助けてくれるだろうし、この領域を追求することに興味がある他の誰もが私が確信している。もう一度jMetrikをご覧になることをお勧めします。おそらくあなたの考えを教えてください。現在、Raschモデリング、ICC曲線、一部のIRT曲線、IRT等化(1PT、2PT、3PTモデル)などがあります。
Behacad

更新されたバージョンを見ていきます。しかし、正直なところ、パラメーターの推定と視覚的なレポート以外に何か重大なことをするつもりなら、@ Staskが言ったことは覚えておく価値があります。私が何を意味するのかを理解するには、Rでのアプリケーションを使用した心理測定理論の紹介を参照してください。(それは「現代の」心理測定法と呼ばれるものだけではありません。)
chl

@chi-ltmを使用してRでIRT分析を実行した場合と、Mplusで同じ分析を実行してからMultilogで実行した場合(MplusとMultilogでの分析は同じでした)とは非常に異なる結果になりました 私はltmの作者とその理由を解明しようとしましたが、返事はありませんでした。異なるソフトウェアパッケージからの矛盾した結果について同様の経験がありましたか?
トーモッド

@Tormodどんな意味で非常に違うのですか?ex5.5MplusとR / ltmで例を実行すると、約 同じ結果。ただし、使用するソフトウェアに応じていくつかのバリエーションが予想されます。通常、私が見つけたのは、パラメータ化(ロジット/プロビット)の選択に関連しています。これは、( items、)であるか、モデル化されたおよび推定方法(限界尤度と条件付き尤度)、および2+パラメーターの場合、しきい値が中央にあるかどうかをモデル化します。θpβ=1kp=1nβθp
CHL

@chi-応答が遅れてすみません、あなたのコメントに気付きませんでした。これがまだ関連するかどうかはわかりませんが、識別パラメーター(a)については、0.184から1.429までのさまざまな違いがありました。たとえば、Mplusはa = 5.084を与え、ltmは同じアイテムにa = 3.655を与えました。全体的に、ltmはmplusよりも小さなaを与えました。(マルチログで同じ分析を実行すると、Mplusのaに対応するaが得られました)。bはもっと似ていました。
-Tormod

8

最初の質問に、jMetrickに関する情報はありません。

IRTを適用する場合、(他の統計手順と同様に)最初のステップは、できるだけ多くの異なる種類のデータで使用することです。学習曲線はありますが、それだけの価値があると思います。

IRTの重要な機能の1つは、RaschモデルとIRTモデルの違いです。それらは異なる目的のために異なる人々によって開発されました。そうは言っても、IRTモデルはRaschモデルのスーパーセットです。

Raschモデルは1つのパラメーターモデルです-アンケートのすべての項目が潜在特性を等しく予測すると想定しています。

ただし、IRTモデルは2つのパラメーターモデルであり、参加者の能力に関する情報を提供する能力が異なる質問を許可します。

さらに、IRTモデルに似た3つのパラメーターモデルがありますが、推測パラメーターを使用して、参加者が偶然に正しい答えを得る能力を考慮することができます(これは人格テストよりも能力の問題です)。

さらに、複数の潜在能力を一度に推定する多次元IRTがあります。私はこれについてあまり知りませんが、私がもっと学びたいと思っている分野です。

また、二分法と多分法のIRT方式には違いがあります。二分式IRTモデルは、能力テストで使用されるモデルであり、正解と不正解があります。ポリトーマスIRTモデルは、パーソナリティテストで使用されます。このテストでは、複数の答えがあり、それらは等しく正しい(正しい答えがないという意味で)。

私は個人的にRをアイテム反応理論に使用しています。私が使用した主なパッケージは2つあり、eRmこれはRaschモデルのみにltm適合し、アイテム応答理論モデル(2つおよび3つのパラメーターモデル)に適合します。どちらも同様の機能を備えており、2つに分かれたIRTモデルのルーチンをより多く提供します。RがIRTに「最適」であるかどうかはわかりませんが、Rには多数のIRTモデルが用意されているわけではありませんが、これらのモデルを比較的簡単にプログラミングできるという点で、確かに最も拡張性があります。

私はRのポリトーマスモデルにほぼ排他的にIRTを使用します。通常、ノンパラメトリックIRTメソッド(パッケージで提供mokken)から始めて仮定をテストし、次にラッシュモデルに進みます。

多次元IRTには、この機能を提供するパッケージ「mirt」があります。私はそれを使っていないので、本当にコメントすることはできません。

これらのパッケージをRにインストールし、 'vignette( "packagename")'関数を呼び出すeRmmokken、(あなたのレベルに応じて)役に立つかもしれないいくつかの有用なビネット(と、おそらく他の人にとっては間違いなく)を取得するはずです。数学的な洗練)。

最後に、raschおよびirtモデル用の優れた書籍が多数あります。心理学者向けのアイテム反応理論がよく使われます(私はスタイルが好きではありませんでしたが)、さらに高度な技術チェーンには、2つの非常に包括的で有用な教科書があります- 現代のアイテム反応理論ハンドブックラッシュモデル:Foundations、Recent開発とアプリケーション

これがお役に立てば幸いです。


ありがとうございました!それは大歓迎です。誰かがこの分野の知識をお持ちの場合は、ソフトウェアオプションについても詳しく知りたいと思います。
Behacad

3

jMetrikはあなたが思うよりも強力です。研究者が単一の統一されたフレームワークで複数の手順を必要とする運用作業用に設計されています。現在、Rasch、部分信用、および評価尺度モデルのIRTパラメーターを推定できます。また、Stocking-Lord、Haebara、およびその他の方法を介したIRTスケールリンクも可能です。統合データベースが含まれているため、IRT推定からの出力は、データファイルの形状を変更することなく、スケールリンクで使用できます。さらに、すべての出力をデータベースに保存して、jMetrikの他のメソッドまたはRなどの外部プログラムで使用できます。

GUIの代わりにスクリプトを使用して実行することもできます。たとえば、次のコードでは、(a)データをデータベースにインポートし、(b)回答キーで項目をスコアリングし、(c)Raschモデルパラメーターを推定し、(d)データをCSVファイルとしてエクスポートします。最終出力ファイルをさらに分析するためのRへの入力として使用するか、Rを使用してjMetrikデータベースに直接接続し、結果を操作することができます。

#import data into database
import{
     delimiter(comma);
     header(included);
     options(display);
     description();
     file(C:/exam1-raw-data.txt);
     data(db = testdb1, table = EXAM1);
}

#conduct item scoring with the answer key
scoring{
     data(db = mydb, table = exam1);
     keys(4);
     key1(options=(A,B,C,D), scores=(1,0,0,0), variables=  (item1,item9,item12,item15,item19,item21,item22,item28,item29,item30,item34,item38,item42,item52,item55));
     key2(options=(A,B,C,D), scores=(0,1,0,0), variables=(item4,item6,item16,item18,item24,item26,item32,item33,item35,item43,item44,item47,item50,item54));
     key3(options=(A,B,C,D), scores=(0,0,1,0), variables=(item3,item5,item7,item11,item14,item20,item23,item25,item31,item40,item45,item48,item49,item53));
     key4(options=(A,B,C,D), scores=(0,0,0,1), variables=(item2,item8,item10,item13,item17,item27,item36,item37,item39,item41,item46,item51,item56));
}

#Run a Rasch models analysis.
#Item parameters saved as database table named exam1_rasch_output
#Residuals saved as a databse table named exam1_rasch_resid
#Person estimates saved to original data table. Person estimate in variable called "theta"
rasch{
     center(items);
     missing(ignore);
     person(rsave, pfit, psave);
     item(isave);
     adjust(0.3);
     itemout(EXAM1_RASCH_OUTPUT);
     residout(EXAM1_RASCH_RESID);
     variables(item1, item2, item3, item4, item5, item6, item7, item8, item9, item10, item11, item12, item13, item14, item15, item16, item17, item18, item19, item20, item21, item22, item23, item24, item25, item26, item27, item28, item29, item30, item31, item32, item33, item34, item35, item36, item37, item38, item39, item40, item41, item42, item43, item44, item45, item46, item47, item48, item49, item50, item51, item52, item53, item54, item55, item56);
     transform(scale = 1.0, precision = 4, intercept = 0.0);
     gupdate(maxiter = 150, converge = 0.005);
     data(db = testdb1, table = EXAM1);
}

#Export output table for use in another program like R
export{
     delimiter(comma);
     header(included);
     options();
     file(C:/EXAM1_RASCH_OUTPUT.txt);
     data(db = testdb1, table = EXAM1_RASCH_OUTPUT);
}

ソフトウェアはまだ開発の初期段階にあります。現在、探索的因子分析とより高度なアイテム応答モデルを追加しています。他の多くのIRTプログラムとは異なり、jMetrikはオープンソースです。すべての測定手順では、GitHub(https://github.com/meyerjp3/psychometrics)で現在利用可能な心理測定ライブラリを使用しています。貢献に興味がある人は誰でも歓迎します。


0

ここには非常に幅広い質問のリストがありますが、多くの研究者にとって非常に関連性があります!

IRTで前進することを強くお勧めしますが、それはあなたの状況が要件を満たしている場合のみです。たとえば、使用するテストのタイプによく適合し、おそらく最も重要なのは、必要なサンプルサイズがあることです。二分法の多肢選択式データについては、3PLモデルをお勧めします(「客観的測定」のRaschの議論は驚くほど説得力がありません)、一般に500-1000が最小サンプルサイズです。ステートメントに対するY / Nの応答がある心理学的調査のように、推測のない二分データは2PLでうまく機能します。格付けスケールまたは部分的な信用データがある場合、それらの状況専用に設計された多義的なモデルがあります。

私見、IRTを適用するための最良のプログラムはXcalibreです。比較的ユーザーフレンドリーで(シンプルなGUIと、何らかの理由で必要な場合はコマンドラインバッチタイプ)、読みやすい出力(広範な表と図を含むMS Wordレポート)を生成します。逆の理由でRを使用しないことをお勧めします。もちろん、欠点は無料ではないことですが、彼らが言うようにあなたはあなたが支払うものを手に入れる傾向があります。詳細な説明、出力例、無料試用版はwww.assess.comで入手できます。


「客観的測定」sensu Rasch(またはより正確には特定の客観的比較の可能性)の議論が「驚くほど説得力がない」理由について詳しく説明してください。
モモ

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.