学生の論文を採点する際に、寛大さのレベルが異なるマーカーの効果をどのようにうまく処理できますか?


13

約600人の学生が広範な信頼性/評価のスコアを獲得しており、これは信頼性/妥当性が良好であると想定できます。評価は100点満点で、コンピューターでマークされた多肢選択式のテストです。

これらの600人の学生は、2番目のマイナーな評価のスコアも持っています。評価のこの2番目の部分では、11人の異なる採点者を含む11のコホートに分けられ、採点の「寛大さ」またはその欠如に関して、採点者間で望ましくないほど大きなばらつきがあります。この2番目の評価も100点満点です。

学生はランダムにコホートに割り当てられたわけではなく、コホート間のスキルレベルの違いを期待する十分な理由があります。

2番目の課題のコホートマーカーの違いが、個々の学生の実質的な利点/欠点にならないようにするタスクを提示します。

私の考えは、コホート内の個人差を維持しながら、2回目の評価でコホートスコアを取得して最初のコホートスコアと一致させることです。2つのタスクのパフォーマンスは高い相関性があると信じるに十分な理由があると仮定する必要がありますが、マーカーの寛大さはかなり異なります。

これが最善のアプローチですか?そうでない場合、何ですか?

回答者が、RやSPSS、Excelなどで適切なソリューションを実装する方法について実用的なヒントを提供していただければ幸いです。


3
いい質問です!多肢選択とエッセイの部分の最終スコアは比較可能(つまり同じ数値範囲)であると想定されていますか?
グン-モニカを復活

2
この質問を書いていたとき、それはあなたの路地にあるかもしれないと思いました!最終スコアは大まかに比較できますが、少し異なります。6.周囲にSDと85〜他のセクションの15の周りのSD平均で70〜複数の選択肢セクションの平均値です
user1205901 -復活モニカ

7
説明したデータのみに基づいてこの問題を解決しようとすると、2つの別々のテスト機器でコホートとパフォーマンスの間に相互作用がないという強力な(テスト不能な)仮定に基づいて解決する必要があるため、私は疑いがあります。可能であれば、グレーダーを調整するために別の小さな実験を行うオプションを検討してください。
whuber

9
問題がどこにあるかをよりよく見るために、(仮に)2つの形式の評価は複数選択とエッセイであり、(2)あなたの年長の生徒はエッセイの質問で比較的よくする傾向があると仮定します。データを使用してスコアを「一致」させると、グレーダー効果と年齢効果を混同し、調整を行うことで、年上の生徒が年少の生徒に比べて体系的に不利になります。どんなに高度なアルゴリズムを選択しても、この基本的な問題については紙でしか説明できません。あなたは必要とするいくつかのこの交絡を解決するために、追加のデータを。
whuber

3
考慮すべき点の1つは、調整手順を学生やその他の利害関係者にどれだけ快適に説明できるかということです。多くの場合、マーキングに潜在的な問題があるため、マーカーの適切なキャリブレーションに多少の努力を払うことはあまり期待できないと感じるかもしれません試験は重要です。
Scortchi -復活モニカ

回答:


8

年生がどのように異なるかを知ることは良いですが、それでも成績を補うために何を教えてくれない。簡単にするために、2年生だけを想像してください。1年生が2年生よりも5マーク多いと結論付けたとしても、1年生と2年生がそれぞれ70年生だった2人の生徒で何をすべきかはわかりません。は厳しいマーカーでしたが、70〜75を評価し、グレーダー1によってマークされた70を変更しませんでしたか?それとも、1年生が不当に寛大で、生徒を65点にノックダウンし、2年生の70を変更しないと仮定しますか?11年生の平均に基づいて、あなたのケースに拡張するまでの中間に妥協しますか?重要なのは絶対的な成績なので、相対的な寛大さを知るだけでは十分ではありません。

あなたの結論は、最終的な絶対マークがどの程度「客観的」であると感じるかによって異なります。メンタルモデルの1つは、各生徒に「正しい」評点(各論文を個別にマークする時間があった場合にリードアセッサーが授与する評点)を提案することです。このモデルでは、観察されていない「真の」評点にできるだけ近づけるために、観察された評点を評定者に補償する必要があります。別のモデルは、すべての評定が主観的であり、すべての評定者が同じ論文を検討し、それに対して何らかの妥協または平均評点に達した場合に授与されると予測されるマークに向かって、観察された各評点を変換しようとする可能性があります。主観の受け入れがより現実的であっても、2番目のモデルは解決策として納得できません。教育現場では、通常、評価に最終的な責任を負い、学生が「彼らが受けるに値する学位」を獲得することを保証する人がいますが、この主要な役割は、私たちがすでにはっきりと同意していない学年生に対する責任を本質的に免除しました。ここから私はそこにあると仮定しますである我々が推定することを目指していることを一つの「正しい」グレードが、これはコンテスタブルな命題であり、あなたの状況に適合しない場合があります。

同じコホートにいる生徒A、B、C、およびDがそれぞれ75、80、85、および90と評定されるべきであるが、彼らの寛大な評定者が一貫して5評点が高すぎるとマークするとします。80、85、90、および95を観察し、5を減算する必要がありますが、減算する数値を見つけることには問題があります。コホートの平均能力は異なると予想されるため、コホート間の結果を比較することではできません。1つの可能性は、複数選択テストの結果を使用して2番目の課題の正しいスコアを予測し、これを使用して各採点者と正しい評点との間の変動を評価することです。しかし、この予測を行うのは簡単ではありません。2つの評価の平均と標準偏差が異なると予想される場合、2番目の評価グレードが最初の評価グレードと一致すると仮定することはできません。

また、学生は、多肢選択および書面による評価で相対的な適性が異なります。それをある種のランダムな効果として扱い、生徒の「観察」および「真」評点の構成要素を形成することができますが、「予測」評点では捉えられません。コホートが体系的に異なり、コホート内の学生が似ている傾向がある場合、各コホート内でこの効果が平均してゼロになると期待すべきではありません。コホートの観察されたグレードが予測されたグレードに対して平均+5である場合、それは不可能ですこれが寛大なグレーダーによるものか、多肢選択よりも書面による評価に特に適したコホートによるものなのか、2つの組み合わせによるものなのかを判断するため。極端な場合、コホートは2回目の評価で適性が低くさえあるかもしれませんが、非常に寛大なグレーダーによってこれ以上の補償を受けました-またはその逆。これを分解することはできません。それは混乱しています。

また、データに対するこのような単純な加算モデルの妥当性も疑います。グレーダーは、場所のシフトだけでなく、スプレッドによってもリード評価者と異なる場合があります-コホートは均一性が異なる可能性が高いため、これを検出するために各コホートで観察されたグレードのスプレッドをチェックすることはできません。さらに、分布の大部分のスコアは高く、理論上の最大値100にほぼ近いです。これは、最大値に近い圧縮による非線形性の導入を予想しています。非常に寛大なグレーダーは、A、B、C、Dマークを85、90、94、97。これは、単に定数を減算するよりも逆にするのが難しい。さらに悪いことに、あなたは「クリッピング」を見るかもしれません-非常に寛大なグレーダーは、それらを90、95、100、100と評定するかもしれません。これは不可能です逆にすると、CとDの相対的なパフォーマンスに関する情報は回復不能に失われます。

あなたのグレーダーは非常に異なる動作をします。評価のさまざまな要素の寛大さではなく、全体の寛大さだけが違いますか?さまざまな問題を引き起こす可能性があるため、これは確認する価値があるかもしれません-たとえば、Bの5段階の「より良い」にもかかわらず、Bの観測されたグレードはAのグレードよりも悪い場合があります。主任審査員の!評価がQ1(Aは30/50、B 45/50を採点する)とQ2(Aは45/50、B 35/50を採点する)に分割されているとします。採点者はQ1で非常に寛容である(観察されたグレード:A 40/50、B 50/50)が、Q2で厳しい(観察された:A 42 / 50、30 / 50)ことを想像してください。 B.コンポーネントスコアを考慮する必要がある場合、

おそらく、これはあなたの問題の元の範囲内で特定の解決策を提案しないという意味で、回答ではなく拡張コメントです。しかし、グレーダーがすでにそれぞれ約55の論文を扱っている場合、キャリブレーションのために5つまたは10以上を見る必要がありますか?生徒の能力については既に十分に理解しているので、学年の範囲全体から論文のサンプルを選ぶことができます。その後、テスト全体または各コンポーネントでグレーダーの寛大さを補う必要があるかどうかを評価し、定数を追加/減算するか、補間のようなより洗練された方法で補う必要があるかどうかを評価できます(たとえば、 100に近い直線性)。しかし、補間に関する警告の言葉:リード評価者が5つのサンプル用紙に70、75、80、85、および90のマークを付け、一方、グレーダーはそれらを80、88、84、93、96とマークしているため、順序に不一致があります。おそらく、96から100の観測されたグレードを90から100の間隔にマッピングし、93から96の観測されたグレードを85から90の間隔にマッピングする必要があります。おそらく、84から93までの観察されたグレードは、間隔75から85にマッピングされるべきでしょうか?別の方法は、「観測されたグレード」から「予測された真のグレード」の式を取得するための(おそらく多項式)回帰です。おそらく、84から93までの観察されたグレードは、間隔75から85にマッピングされるべきですか?別の方法として、「観測されたグレード」から「予測された真のグレード」の式を取得するための(おそらく多項式)回帰があります。おそらく、84から93までの観察されたグレードは、間隔75から85にマッピングされるべきですか?別の方法として、「観測されたグレード」から「予測された真のグレード」の式を取得するための(おそらく多項式)回帰があります。


1
残念ながら、評価2の性質により、グレーダーはキャリブレーションの目的で詳細を見ることができません。これは、録音なしで1回行われ、その後すぐに評価された口頭での詩の朗読のようなものと考えることができます。キャリブレーションのみを目的として新しい朗読をスケジュールすることは実用的ではありません。他の質問に答えるために、アセスメント2には明確なサブコンポーネントがありませんでした。コンポーネントスコアを考慮する必要はありません。
user1205901-モニカを14年

1
これは「答えではありません」が、理想的な世界では物事を好転させ、トレーニングの方法としてサンプルサンプル(おそらく実際の学生ではなく、学年の境界線上にあるよう意図的に設計された人為的な課題の)を使用することをお勧めしますグレーダーは、彼らの寛大さを推測して補償するのではなく、同じ寛大さを持っている。しかし、評価が行われた場合、これは明らかに解決策ではありません。
シルバーフィッシュ14年

1
(+1)非常に徹底的な「答えではない」。かなり主観的なテストの一貫性は、グレーディングタスクをコンポーネントに分割することで大幅に改善されることがよくあります。そうしないと、あるグレーダーがリズムに重くなり、別のグレーダーが投影に重くなります。
Scortchi -復活モニカ

最終的に問題を決定する人に可能な調整を提出することに加えて、調整の長所と短所の説明を提出する必要があることは明らかです。あなたの応答は、これに関する多くの有用な資料を提供します。しかし、すべてをそのままにしておく方が良いのか、それとも変更を加える方がよいのかを判断するために、どの基準を使用できるのだろうか。私はコホートのグレードを見て、私の直感では、マーカー間の違いは大きな影響を与えると述べています。直感は信頼できませんが、この場合、他に何ができるかわかりません。
user1205901-モニカを14年

2
1つの質問は、「年次寛大さ」効果と比較して、特にコホート全体で平均したときに、「差別的タスク適性」効果が小さいと信じる合理的な根拠があるかどうかです。その場合、各コホートの寛大な効果を推定しようとするかもしれませんが、混乱する危険があります。さらに、キャッチ22があります。私は、観察されたグレードに大きな「修正」を適用することに最も注意します。しかし、提案された修正が小さい場合、それはコホート間の差次的タスク能力の系統的な違いによるものであり、グレーダーの寛大さによるものではないと考えられます。
シルバーフィッシュ14年

2

非常に単純なモデル:

s1s2A1Ap

各コホートは、生徒の力とグレーダーの容易さによって偏っています。これが相加効果であると仮定すると、次の方法でそれを取り消します。最初のテストでコホートの平均スコアを引き、2番目のテストでコホートの平均スコアを加算します。

s1

jpAjs1=s11|Aj|Ajs1s2

s

s=αs1+1αs2

欠点は、コホートの人々が2回目のテストで不運になった場合、個々の学生が罰せられる可能性があることです。しかし、あらゆる統計的手法は、この潜在的に不公平な欠点をもたらします。


3
α

1
いいえ-コホートはランダムに選択されません。
Scortchi -復活モニカ

1
... @whuberが言い続けているように、ある種のテストで別のテストよりも比較的良い結果を出すコホート(年齢など)に固有の傾向と混同されます。
Scortchi -復活モニカ

2
より大きなコホートを取ることで交絡を排除することはできません!せいぜい、解釈不能な値のより正確な推定値を思いつくことができます。
whuber

3
合理的、おそらく:しかし、OPが利用できる情報を考えると、テストすることはできません。あなたの答えの妥当性は、この暗黙の仮定の真実に依存しています。さらに悪いことに、その否定(もちろんテスト不可能でもある)も非常に合理的です:コホートは自己選択されているため、異なる評価手段で一般的な方法で実行する人々で構成されている可能性があり、実際に差別的な成功の可能性高いことを示唆しています一部はコホートによるものであり、一部はグレーダー間のばらつきによるものです。
whuber

1

できません。少なくとも、追加のデータを収集することなく。理由を確認するには、このスレッド全体で@whuberの多数の賛成のコメントを読んでください。


0

編集

この回答で解決された問題は、嫌いな生徒にポイントを与えないグレーダーを見つけることです。

元の投稿

実装が簡単だと思う私のアプローチは、次のとおりです。

μkkyk第二の割り当てのためのグレードを表します。

1

モデルを想定

yk=μk+α+τekαααがゼロでありますが、学生は最終試験の成績を変更して全体的な増減を行うことができます。

2

Gyk

ykμkα=yk=G+σek

そして、 11個の個別の推定を行う Gσ

3

今、異常な観察はそのようなものです

T=|yGσ|

注意

eT

Rコード

以下はRのコードです。あなたの場合、muとyの両方が与えられるので、それらがrnorm-numbersを割り当てられたときの生成行は無視されることに注意してください。データなしでスクリプトを評価できるようにそれらを含めます。

mu_0 <- 50; 
alpha <- 5;
tau<- 10; 
# 0 Generate data for first assignment
mu <- matrix(rnorm(605, mu_0, tau), 11) 

# 1 Generate data for second assignment and estimate alpha
G <- rnorm(11, 0)*10;
for(i in 1:11){
    y[i,] <- rnorm(55, 0, sigma) + mu[i,] + alpha + G[i];
}

alpha_hat <- mean(y-mu)
alpha_hat

# 2 Form \tilde{y} and find unsual observations
ytilde <- y - mu - alpha_hat
T <- matrix(0, 11, 55);
for(i in 1:11){
    G_hat <- mean(ytilde[i,]);
    sigma_hat <- sd(ytilde[i,]);
    T[i,] <- order(abs(ytilde[i,] - G_hat)/sigma_hat)
}
# 3 Look at grader number 2 by
T[2,]

4
あなたは質問に答えていないようです。「異常な観察」を調査するための推奨事項だけで終わります。それはどのように問題を解決しますか?
whuber

質問をもう一度読んで、おそらく「個人」の部分に集中しすぎたのでしょう。この答えで解決された問題は、むしろ、嫌いな生徒にポイントを与えないグレーダーを見つけることです。元の質問を解決することは不可能です(!)。すでに示唆したように、各コホート内で学生が協力するか、そうでなければ強く相関する可能性が非常に高いです。
フナフ14年

0

問題の言い換え:委任されたマーカーの定性的評価の範囲により、2部がより大きな不確実性にさらされることを必要とする条件で、2部のマークを試験に設定するための最善のアプローチ。

ここで:Master Tester =試験の責任者Delegated Tester =試験のパー2をマークするために割り当てられた人(11人中1人)学生=試験を受けることの楽しさを得る人

目標は次のとおりです。A)生徒は自分の作業を反映したマークを受け取りますB)マスターテスターの意図に合わせて第2部の不確実性を管理します

推奨されるアプローチ(回答):1.マスターテスターは、試験の代表的なサンプルセットをランダムに選択し、パート#2をマークし、パート#1との相関を作成します2.相関を利用して、委任マーカーのデータをすべて評価します(パート#1 vs#2スコア)3.相関関係がマスターテスターと著しく異なる場合-マスターテスターが受け入れられる重要性-試験をマスターテスターとして調べ、結果を再割り当てします。

このアプローチにより、マスターテスターが相関と許容できる重要性について責任を負うことが保証されます。相関は、パート#1対#2のスコアや、テスト#1対#2の質問の相対スコアと同じくらい簡単です。

マスターテスターは、相関の「ゴム性」に基づいて、パート2の結果の品質を設定することもできます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.