スピアマンブラウンの予言式は、さまざまな困難の問題の影響を受けますか?


10

スピアマンブラウンの予言式の結果は、難易度の異なるテスト問題を抱えていることや、評価が簡単または難しい評定者にどのように影響されますか。尊敬されているテキストの1つは、SBが影響を受けると述べていますが、詳細は示していません。(下の引用を参照してください。)

Guion、R. M(2011)。人事決定の評価、測定、予測、第2版。477ページ

「スピアマンブラウン方程式を使用して評価者をプールすることで信頼性を高めることができます。単一の評価の信頼性が.50の場合、2、4、または6つの並列評価の信頼性は約.67、.80になります。 、およびそれぞれ.86」(Houston、Raymond、&Svec、1991、p。409)。統計的推定は、すべてが想定どおりに進んだ場合に予想されるものの「平均的」な声明であることを単語がおおよそ認識しているため、この引用が好きです。それを超えて、手術の言葉は平行しています。たとえば、1つの評価者が体系的に寛容である場合、評価の平均化(またはSpearman-Brownの使用)は、単に想定に適合しません。エッセイがそれぞれ2つの評価者によって評価され、一方がもう一方より寛容である場合、問題は、難易度が等しくない(非並行形式)の2つの多肢選択テストを使用する問題に似ています。異なる(不等)テストフォームに基づくスコアは比較できません。したがって、それは寛大で難しい評価者を混合することです。プールされた評価の信頼性は、古典的なテスト理論のスピアマンブラウン方程式によって誤って推定されます。各裁判官が構成を少し異なるように定義すると、問題はさらに悪化します。」


1
信頼できる情報源を探すことの問題は、答えはテスト理論から来るということだと思います。基礎となる理論、特に信頼性を評価する能力の限界を理解すれば、それは一種の明白です。それが、ガイオンがわざわざ説明しない理由です。とにかくあなたの検索で頑張ってください-多分誰かが、どこかでより良い説明を知っています。
ジェレミーマイル2014年

回答:


10

「尊敬されるテキスト」と他のCVユーザーの両方に少しばかり矛盾しているように感じますが、Spearman-Brownの式は、難易度の異なるアイテムを使用して影響を受けないようです。確かに、Spearman-Brownの式は通常、並列項目があるという仮定の下で導出されます。これは、(とりわけ)項目に同等の難しさがあることを意味します。しかし、この仮定は必要ないことがわかりました。リラックスして不平等な問題を許容することができ、スピアマンブラウンの公式はそのまま維持されます。これを以下に示します。


XTE

X=T+E,
TEXX
T=Tvar(E)=var(E).
T=T+cvar(E)=var(E).
c>0XXXX

kρ=σT2/(σT2+σE2)σT2σE2

var(i=1kTi+Ei)=var(i=1kT+ci+Ei)=k2σT2+kσE2,
TσT2σE2
k2σT2k2σT2+kσE2=kσT2kσT2+σX2σT2=kρ1+(k1)ρ,

@JeremyMilesは、「現実の世界で」テストの長さを長くしたときに何が起こり得るかについて、いくつかの興味深い重要なポイントを提起しますが、少なくとも古典的なテスト理論の理想化された仮定によれば、アイテムの難易度の変動は、テストフォーム(現代のアイテム応答理論の仮定とはまったく対照的です!)。重要な結果のほとんどすべてが、アイテムの困難性(つまり、手段)が異なる可能性があるより寛大なケースに当てはまるため、この同じ基本的な推論は、タウ等価ではなく本質的にタウ等価について通常私たちが話す理由でもあります。


2
はい、良い点です。私が書いたことは必ずしも成り立ちません。
ジェレミーマイル

5

言うのは簡単ではありません。

まず、Spearman-Brownは、テスト項目(または評価者)がテスト項目(または評価者)の母集団からランダムにサンプリングされると想定しています。これは、特にテストでは真実ではありません。より多くのアイテムを作成するのは難しいため、最初はより良いアイテムを使用する可能性が高くなります。テストを長くする必要があることに気づくと、アイテムの「バレルを削る」。

第二に、アイテムの信頼性は異なり、信頼性は必ずしも難易度に関連しているわけではありません(それが役立つ場合は、アイテム応答理論におけるアイテムの特性曲線の傾きと切片を考えてください)。ただし、信頼性の計算(たとえば、クラス内相関の形式であるCronbachのアルファ)は、信頼性がすべて等しいと仮定します(つまり、本質的なタウ相当の測定モデルを前提としています。つまり、各項目の標準化されていない信頼性はすべてです。等しい)。それはほぼ間違いなく間違っています。アイテムを追加すると、上がる場合と下がる場合があります。商品により異なります。

これを考える別の方法があります。母集団からサンプルをランダムに選択し、平均と平均の標準誤差を計算します。その平均は、母平均の公平な推定量になります。次に、サンプルのサイズを増やします-平均の期待値は同じですが、実際に同じになることはほとんどありません。ほぼ確実に増減します。標準エラーが小さくなることを期待しているのと同じように、それが縮小する量は一定ではありません(標準エラーが大きくなることは不可能ではありません)。


SB式は、期待される信頼性の最小値、最大値、または中間値を提供しますか?また、信頼性は相関関係で計算されるため、イージー/ハードアイテムまたは評価者が影響を与えるのはなぜですか?
Joel W.

SB式は期待される信頼性を提供します。それはそれよりも高い場合も低い場合もあります。1つの問題は、信頼性を計算する方法が複数あり、それらが行う前提がめったに満たされないことです。すべては古典的なテスト理論に根ざしている-項目応答理論は測定について考えるより現代的な方法であり、たとえば、テストの信頼性はそれぞれに同じではないことがよくありますIRTの人。
Jeremy Miles

質問が非常に難しい、または非常に簡単な場合、相関に影響する可能性があります。たとえば、「7 * 11」は3年生では信頼できる質問かもしれませんが、数学の大学生にとってはそうではありません。
Jeremy Miles

1
<テストはより長くする必要があるので、アイテムの「バレルをこする」ことになります。明らかに、実際にテストを組み合わせた経験があります。
Joel W.
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.