このデータをどのように使用して、学生の論文のグレーディングにおいて、さまざまなレベルのマーカーを校正できますか?


9

12人の教師が600人の生徒を指導しています。これらの教師が教える12のコホートのサイズは40人から90人の学生の範囲であり、大学院生は特定のコホートに偏って割り当てられており、以前の経験では平均スコアの大学院生のスコアが学部生。

教師はコホート内のすべての論文を採点し、100点満点のスコアを割り当てました。

各教師はまた、他の3人の教師からランダムに選択された1つの論文を見て、100点満点でした。このようにして36の異なる論文にクロスマークが付けられました。私はこれを私の校正データと呼びます。

各コホートの大学院生の数もわかります。

私の質問は:

A)このキャリブレーションデータを使用して、元のマークを調整して、より公平にすることができますか?特に、過度に寛大/非エネルギーなメーカーの影響をできるだけ洗い流したい。

B)校正データはどの程度適切ですか?このコースで取得したキャリブレーションデータの36の限られたデータポイントの選択肢がなかったため、現在の学期中にこれ以上収集するオプションがありませんでした。ただし、この状況が繰り返し発生する場合は、さらに多くのキャリブレーションデータを収集したり、別の種類のキャリブレーションデータを収集したりできる場合があります。

この質問は、私が尋ねた人気のある質問の相対的なもの です。学生の論文の評価において、寛大さのレベルが異なるマーカーの影響に最もよく対処するにはどうすればよいですか。。しかし、それは別のコースであり、私が校正データを持っていなかったという主な問題があったので、この質問を読むことがこの現在の問題の背景としてどれほど役立つかはわかりません。

回答:


6

これは、行列因数分解推奨システムを使用する絶好の機会のようです。簡単に言うと、これは次のように機能します。

  • あなたの観察を入れて、部分的に観測された行列スコアの先生である学生に与えた。MMijij

  • この行列は、潜在的な特徴ベクトルと外積であるとます。、です。tsMij=tisj

  • 二乗再構成エラーを最小化する潜在特徴ベクトルを(ここで、合計は観測されたすべてのセルの範囲です)。i,j(tisjMij)2M

  • あなたはのための推測で固定することにより、この期待値最大化のスタイルを行うことができますしてについて解く、その後のためにその推測を固定し、経由して最小二乗と解決のために収束するまで反復します。tsst

これは、教師のバイアスの形をかなり強く想定していることに注意してください。特に、生徒の潜在的な特徴を「真のスコア」と考える場合、教師のバイアスは、各真のスコアに一定の量を乗算します(代わりにそれを加法にして、マトリックスに挿入するスコアを指数化し、「真のスコア」の指数を学習します。キャリブレーションデータが非常に少ないと、このフォームを強く想定しない限り、それほど遠くに行くことはできませんが、データが多い場合は、潜在的な特徴の2番目の次元などを追加できます(つまり、と仮定します)。そして、二乗された再構成エラーを最小化するようにもう一度試みます)。Mij=k=1nsiktkj


編集:明確に定義された問題を発生させるには、潜在パラメーターよりも多くの行列演算が必要です(または、ある種の正則化を使用できます)。ここにはほとんどありません(636の観測値と612の潜在パラメーターがあるため)、行列の因数分解はうまく機能しない可能性があります-私はそのような小さなサンプルでそれらを扱ったことがないので、本当にわかりません。

キャリブレーションが適切なリコメンダーモデルを使用するには不十分であることが判明した場合、マルチレベル回帰を試してScore ~ IsGradStudent + <whatever other student covariates you have> + (1|Teacher)(キャリブレーションデータを無視)、追加の教師バイアスの推定値を抽出し、このバイアスがキャリブレーションデータと一致しているかどうかを確認できます。取った。(可能であれば、教師による不均一分散を考慮に入れる必要があります。)これはより臨機応変ですが、それほど深刻ではないデータ収集の問題が発生する可能性があります。


これをさらに詳しく説明するには、おそらく教師の固定効果と潜在的にクラスター化されたロバスト標準エラーを含む単純なモデルから始め(Rでのこれに関する議論についてはこのブログ投稿を参照)、外れ値の固定効果を比較します。Rでは、のようなものlm(score ~ gradStudent + ... + teacherIDがそれを行う必要があります。
iacobus 2015

2

ここにいくつかの関連するアプローチがあります。

複数の教師がマークした一連の論文を取り上げてください。これらの論文には教師の影響に関するほとんどの情報が含まれており、それらの論文の外部では、教師とコホートの影響が混乱しています(コホートの影響を得る何らかの方法があった場合-おそらくGPAを介して)または、たとえば、他の予測子の場合、すべてのデータを使用できますが、モデルがかなり複雑になります)。

学生にラベルを付け、マーカーラベルを付けます。マークのセットをます。i=1,2,...nj=1,2,...,myij,i=1,2,...m

まず、マーカー効果の適用方法についてモデルを検討する必要があります。それは相加ですか?それは乗法ですか?境界効果について心配する必要がありますか(たとえば、ロジットスケールでの加算効果または乗算効果の方が優れていますか)。

2つの紙に2つの与えられたマーカーを想像し、2番目のマーカーの方が寛大だと想像してください。最初のマーカーが紙30と60を与えるとしましょう。2番目のマーカーは両方に一定数のマーク(たとえば6マーク)を追加する傾向がありますか?彼らは一定のパーセンテージを追加する傾向がありますか(たとえば、両方に10%、または3マーク対6マーク)。最初のマーカーが99を与えた場合はどうなりますか?-では、どうなるでしょうか。0はどうですか?2番目のマーカーの寛容性が低下した場合はどうなりますか?99または0で何が起こりますか?(これが私がロジットモデルについて言及している理由です-マークを可能なマークの比率()として扱う可能性があり、マーカー効果は定数を追加することになる可能性があります(たとえば)のロジットに-すなわち)。pij=mij/100plog(pij/(1pij)

(ここでは、寛大さの形式とそのサイズを推定するのに十分なデータがありません。状況を理解した上でモデルを選択する必要があります。また、相互作用の可能性をすべて無視する必要があります。そのためのデータを持っている)

可能性1-単純な加法モデル。これは、実際に0または100に近いマークがない場合に適しています。

ようなモデルを考えE(yij)=μi+τj

これは本質的には二元配置分散分析です。これに制約が必要なため、偏差コーディングを設定するか、マーカー効果が0になるようにモデルを設定するか、1つのマーカーがベースラインであるモデルを設定します(その効果は0で、そのマークは他のすべてのマーカーを調整しようとします)。

次に、値を取り、より広い範囲のマークを調整し。τ^jykjadj=ykjτ^j

可能性2:実際には、同様の種類のアイデアですが、です。ここでは、非線形最小二乗モデル、または対数リンクを備えたGLMを当てはめることができます(おそらく、これら2つのうち2番目のモデルに寄りかかるでしょう)。ここでも、に対する制約が必要です。E(yij)=μiτjτ

次に、適切な調整は割ることです。τj^

可能性3:ロジットスケールでの加算。これは、一部のマークが0または100に近づく場合に適しています。非常に小さいマークの場合はほぼ乗法的に、中間のマークは加法的に、非常に高いマークの場合はでほぼ乗法的に見えます。このモデルに適合するには、ベータ回帰またはロジットリンク付きの疑似二項GLMを使用できます。1p=(100m)/100

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.