なぜすべてのテストが項目分析/応答理論で採点されないのですか?


8

項目分析/応答理論がより広く適用されない統計的な理由はありますか?たとえば、教師が25問の多肢選択式テストを行い、全員が10問正解した場合、10問は非常に低い割合で回答され(たとえば10%)、残りの5問は約50%の人が回答した。難しい質問にさらに重みを付けるために、スコアの重み付けを変更することは理にかなっていますか?

それでも、現実の世界のテストでは、ほとんどの場合、すべての質問に等しく重み付けされています。どうして?

以下のリンクでは、差別の指標と、どの質問を選択するのが難しいかについてのその他の対策について説明しています。http//fcit.usf.edu/assessment/selected/responsec.html

ただし、質問の識別インデックスを計算する方法は、前向きな方法でのみ使用されるようです(たとえば、質問がうまく識別できない場合は、それを投げます)。現在の母集団に対してテストの重み付けが変更されないのはなぜですか?

回答:


7

(あなたは統計的な理由があるかどうか尋ねました:私はそれを疑いますが、私は他の理由について推測しています。)「ゴールポストを動かす」という叫びはありますか?学生は通常、テストを受けるときに各項目の価値を知りたいと思っています。彼らは、例えば、彼らの勤勉な答えのいくつかは、結局あまり数えられなかったと見て不平を言うのは正当であるかもしれません。

多くの教師や教授は、非体系的で主観的な基準を採点テストに使用しています。しかし、システムを使用する人々はおそらく、それらのシステムを特定の批判にさらすことに警戒しています-より主観的なアプローチの背後に隠れている場合、彼らは主に回避できるものです。これは、アイテム分析とIRTが実際よりも広く使用されていない理由を説明している可能性があります。


1
+1、多くの教師や教授もIRTに慣れていないと思います。
gung-モニカの復活

絶対に!別の非統計的な理由。この国の教師教育は、教える教育を受けている人の多くが、評価のトレーニングをほとんどまたはまったく受けていないようなものです。そして、評価方法のトレーニングを受けた研究者やテスト設計者がいて、指導方法のトレーニングはほとんどまたはまったくありません。
rolando2

1
@ rolando2-事前またはテスト受験中のインセンティブの考えが私に起こらなかったと私は経済学者として恥ずかしいです。受験者が動いているターゲットを扱っていて、各質問に答えるために合理的に時間と労力を費やす方法がわからない場合、それはおそらく本当にひどい影響を与える可能性があります!
d_a_c321

私はそれが彼らを不快にさせるかもしれないと思いますが、どのような「変な」影響を考えていますか?
rolando2 2011年

6

最初の議論は透明性に関係しています。@ rolando2はすでにこの点を指摘しています。学生は、各アイテムの価値を事前に知りたいと考えています。

2番目の議論は、重みは質問の難易度だけでなく、インストラクターが質問に付ける重要度も反映するということです。実際、試験の目的は、知識と能力をテストし、認定することです。したがって、さまざまな質問や項目に起因する重みは、教師が事前に設定する必要があります。「すべてのモデルが間違っており、一部のみが有用である」ことを忘れないでください。この場合、その有用性に疑問を抱く可能性があります。

そうは言っても、結果の分析のために、(多かれ少なかれ派手な)統計分析が事後的に行われる可能性があると思います。そこではいくつかの興味深い洞察を得ることができます。さて、これが行われるかどうか、そしてそれがどの程度行われるかは、確かに教師の統計的スキルに依存します。


2
絶対に!インストラクターとして私が探しているのは、生徒の相対的なランキングではなく、理解度とスキルの絶対的な尺度です。クラスの全員が私が教えている主題を100%理解していると測定されたことが判明した場合、私は完全に(喜んででも)起こります。したがって、質問の重みは、その重要性と、主題の理解の全体的な評価における質問の重要度を反映するように選択されます。
DW

2

元の質問について明確にしたかったのですが。項目応答理論では、識別(すなわち、項目勾配または因子負荷)は困難を示していません。各項目の差別を変化させることができるモデルを使用すると、潜在的な変数への推定された相関に従って、困難ではなく効果的に重み付けされます。

言い換えれば、関心のある次元とかなり無相関であると推定される場合、より難しいアイテムは重み付けされ、逆もまた同様であり、高い相関があると推定される場合、より簡単なアイテムは重み付けされる可能性があります。

私は、(a)実務家の間での項目応答方法の認識の欠如、(b)これらのモデルを使用することには、その利点(特に、測定モデルの適合性)、(c)@ rolando2によって指摘された学生の期待、そして最後に(d)講師がさまざまな項目に異なる重み付けをするための理論的な考慮事項。しかし、私はそれについて言及したかった:

  1. すべてのアイテム応答理論モデルが識別パラメーターの変化を許容するわけではありません。ここで、ラッシュモデルはおそらくアイテム間の識別が一定に保たれるモデルの最もよく知られている例です。Raschモデルファミリーでは、合計スコアは項目の応答スコアの十分な統計であるため、回答者の順序に違いはありません。スコア間の「距離」が異なる場合は、実際的な違いのみが評価されます。グループが考慮されます。

  2. 理論的理由と経験的理由の両方から、古典的なテスト理論(従来の合計スコアまたは平均正解の使用に依存)の使用を擁護する研究者がいます。おそらく最もよく使われる議論は、項目応答理論の下で生成されたスコアが、古典的なテスト理論の下で生成されたものと事実上非常に類似しているという事実です。たとえば、Xu&Stone(2011)、「結果の予測教育的および心理的測定におけるIRT特性の推定と合計スコアの使用」の研究を参照してください。これらは、さまざまな条件下で.97の相関を報告しています。


(+1)最初の段落は非常によく書かれています。ポイント2については、どういうわけかこの記事を逃したので、共有してくれてありがとう!注目すべき点として、同等の大きさの相関関係が従来の因子分析モデルで観察されます(負荷が差別化パラメーターを模倣している場合-CTTフレームワークでは、これは点双相関相関係数になります)、アイテムの難易度が潜在特性(つまり、難しすぎず、簡単すぎるアイテムもありません)。
2012年

1

生徒のスコアは、クラスの他の全員が何をしているのかではなく、彼らが知っていてテストで答えていることに基づいているべきではありませんか?

同じテストを2年間実施し、2人の生徒(各1名)がまったく同じ質問に(不正行為なしで)正解した場合、他の生徒の数に基づいて異なる成績を受け取ることは本当に理にかなっていますか彼らのクラスは勉強しましたか?

そして個人的には、生徒が自分で教材を学ぶ代わりに、クラスメートをサバトゲする動機を与えたくありません。

IRTはテストにある程度の洞察を与えることができますが、スコアを積極的に重み付けするためにそれを使用しません。

重みについて考えるとき、難しい質問を正解するためには誰かがより多くのポイントを獲得するべきだと思いますが、簡単な質問を間違えるためにはより多くのポイントを失うべきです。それらを組み合わせても、重みは同じになります。または、実際に質問に答えるのに必要な時間または労力に基づいて重み付けをするので、別の順序で質問に答える人は、時間制限付きテストで有利になりません。


IRTを使用する大規模なテスト組織も、テストの提供間の一貫性について心配する必要があります。潜在変数の一貫性は重要ですが、達成可能です。
D Coetzee 2012
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.