これには2つの部分があります。(a)グラフの選択(実験計画))を、学生がピアグレーディングプロセスで評価するエッセイのペアを決定すること、および(b)学生のピアグレードに基づいてすべてのエッセイをランク付けして、教師がランク付けする必要があるかを決定します。それぞれにいくつかの方法を提案します。
グラフの選択
問題文。 最初のステップは、グラフを生成することです。つまり、ピアグレーディングの演習中に、生徒に表示するエッセイのペアを選択する必要があります。
推奨されるソリューション。このタスクでは、すべての3正規(単純)グラフのセットからランダムに一様に選択されたランダムグラフを生成することをお勧めします。G
正当化と詳細。 ランダムなd正則グラフが優れたエキスパンダーます。実際、通常のグラフには漸近的に最適な拡張係数があります。また、グラフはランダムであるため、グレーディングが歪むリスクを排除できます。グラフをランダムに均一に選択することにより、すべての生徒にとって均等なアプローチが保証されます。一様にランダムな3正規グラフが目的に最適であると思います。
これは問題を提起します:個の頂点で3正規(単純)グラフを一様にランダムに選択する方法は?ん
幸い、これを行うための既知のアルゴリズムがあります。基本的に、次のことを行います。
ポイントを作成します。これは、n個の頂点のそれぞれの3つのコピーと考えることができます。これらの3つのn個のポイントでランダムに完全に一致するランダムな完全一致を生成します。(つまり、3つのnポイントがすべてペアになるまで、次の手順を繰り返します。ペアになっていないポイントを選択し、ペアになっていないポイントのセットからランダムに一様に選択された別のポイントとペアにします。)3 nん3 n3 n
マッチングによってマッチングされた2つのポイントごとに、対応する頂点(それらはコピーである)の間にエッジを描画します。これにより、個の頂点のグラフが表示されます。ん
次に、結果のグラフが単純かどうかをテストします(つまり、自己ループがなく、エッジが繰り返されていない)。単純でない場合は、グラフを破棄してステップ1に戻ります。単純な場合は、これで完了です。このグラフを出力します。
この手順では、3つの正則(単純)グラフのセットに均一な分布が生成されることがわかっています。また、ステップ3では、結果のグラフを受け入れる確率が一定であるため、平均してアルゴリズムは回の試行を行うため、これはかなり効率的です(たとえば、多項式の実行時間)。O (1 )
私はこのアプローチがBollobas、Bender、およびCanfieldの功績であることを見てきました。このアプローチはウィキペディアでも簡単に要約されています。このブログ投稿でディスカッションを見つけることもできます。
技術的に言えば、これは数が偶数であることを必要とします(そうでなければ、n個の頂点に3正規グラフはありません)。ただし、これは簡単に処理できます。たとえば、nが奇数の場合、1つのエッセイをランダムに選択し、それを脇に置いて、残りのエッセイにランダムな3つの正規グラフを生成し、脇に置いたエッセイからさらに3つのエッジをランダムに選択した他のエッセイに追加できます。(これは、実際に4回採点されるエッセイが3つあることを意味しますが、害はありません。)んんん
すべてのエッセイのランキング
問題文。 これで、グラフが完成しました。これらのエッセイのペア(グラフの端で示されている)を生徒に提示し、ピアグレーディングの演習中に生徒が採点できるようにしました。あなたはエッセイの各比較の結果を持っています。ここでの課題は、すべてのエッセイの線形ランキングを推測して、教師に評価させるエッセイを決定するのに役立てることです。
解決。Bradley-Terryモデルの使用をお勧めします。これは、この問題を正確に解決する数学的アプローチです。これは、いくつかの選手のペア間の試合結果に基づいて、一部のスポーツで選手をランク付けするために設計されました。各プレーヤーには実数として定量化できる(不明な)強さがあり、アリスがボブを倒す確率は、強さの差の滑らかな関数によって決定されます。次に、ペアごとの勝利/損失の記録を考慮して、各プレーヤーの強さを推定します。
これはあなたにぴったりです。それぞれのエッセイをプレイヤーとして扱うことができます。2つのエッセイ(ピアの採点プロセス中)の各比較は、それらの一致の結果のようなものです。Bradley-Terryモデルを使用すると、そのすべてのデータを取得し、各エッセイの強度を推測できます。強度が高いほど、エッセイが優れています。これらの強みを使用して、すべてのエッセイをランク付けできます。
私j
あなたが持っているデータを前提として、すべてのエッセイの評価またはランキングを推測する別の方法があります。たとえば、Eloメソッドは別です。それらのいくつかを別の質問に対する私の回答に要約します。詳細についてはその答えを読んでください。
もう1つのコメント:Bradley-Terryモデルは、2人のプレーヤー間の各比較の結果が勝敗(つまり、バイナリの結果)であると想定しています。ただし、実際にはより詳細なデータがあるように思われます。スライダーは、同級生が1つのエッセイを他のエッセイよりもどれだけ高く評価したかを大まかに見積もります。最も単純なアプローチは、各スライダーをバイナリ結果にマップすることです。ただし、本当に必要な場合は、より高度な分析を使用して、すべてのデータを使用できる場合があります。Bradley-Terryモデルでは、ロジスティック回帰を行います。順序付けられたロジットを使用するように一般化した場合、スライダーからの結果はバイナリではなく、いくつかの可能性の1つであることを考えると、各スライダーから得られる追加情報を利用できると思います。
先生の効率的な使い方
すべてのエッセイの上位X%と下位X%を教師に手動で採点させることをお勧めします(ピアの採点の結果から推測されるランキングを使用)。これはうまくいくかもしれませんが、教師の限られた時間を最も効率的に使用することではないと思います。代わりに、私は別のアプローチを提案したいと思います。
エッセイのサブセットを教師が採点することをお勧めします。サブセットは教師が採点しなかったすべてのエッセイに対して可能な限り最高の校正を提供するように慎重に選択されています。これについては、可能な回答の範囲をカバーするエッセイのサンプルを選択した場合に役立つと思います(したがって、すべてのエッセイについて、それほど遠くない教師によって採点されたエッセイがいくつかあります)。このため、私はあなたが試すことを検討できる2つのアプローチを考えることができます:
私はこれらのアプローチのいずれかが教師にエッセイの上位X%と下位X%を採点させるよりも正確なスコアを提供するのではないかと思います-最高かつ最悪のエッセイはおそらく真ん中のエッセイの塊を代表していないためです。
d(e1、e2)= (s (e1)− s (e2))2s (e )eピアグレーディングの結果に基づいてTerry-Bradleyモデルによって推定されたとおり。ただし、もっと洗練されたことができます。たとえば、エッセイ間の正規化されたレーベンシュタイン編集距離を計算できます。e1e2k