ピアグレーディングデザイン-グラフを選択して、正確なランキング/レーティングを取得


9

バックグラウンド。グレーディングプロセスの一部としてピアグレーディングを使用して、半自動グレーディングのコードを書いています。生徒には一度に2組のエッセイが与えられ、生徒はスライダーを使用してどちらが優れているか、どれほど優れているかを選択できます。たとえば、スライダーは次のようになります。

A---X-B

ピアグレーディングの結果に基づいて、エッセイがランク付けされ、教師が上位X%と下位X%を評価し、すべてのエッセイのスコアがこれに基づいて自動的に計算されます。このランキング/スコアリングプロセスを実行する方法はすでに考え出されています。その部分はうまくいきます。

私の質問。生徒に与えるエッセイのペアをどのように選択すればよいですか?

シミュレーションでは、正確なランキングを取得するには、エッセイを少なくとも3回成績評価する必要があることが示唆されています。したがって、各エッセイは、ピアグレーディング用に提示されるペアのうち少なくとも3つに表示されます。

これはグラフの問題と考えることができます。エッセイをノードと考えてください。各エッジは、ピアのグレーディングプロセス中に提示されるエッセイのペアを表します。上記の精度結果は、各ノード(またはほとんどのノード)の次数が少なくとも3であることを示唆しています。どのようなグラフを使用する必要がありますか?ピアグレーディング中に使用するグラフをどのように生成する必要がありますか?

1つの課題は、グラフにクラスターがある場合、これによりピアグレーディングが歪むことです。たとえば、ピアグレーディングの結果が歪むため、高品質のエッセイに対してピアグレーディングを行うことは望ましくありません。

あなたは何をお勧めします?

この問題は、次のようなものを使用した無向グラフでモデル化できると思います。

  • 次数が最も低いノードを取得して、次に少ないノードとリンクします
  • あなたの平均学位が少なくとも3になるまで続けます
  • ノード接続を最大化
  • クリークの数を最小限に抑える

これは良いアプローチですか?そうでない場合、代わりに何をお勧めしますか?


これはエキスパンダーにとって興味深いアプリケーションかもしれません。エクスパンダーで割り当てを調整しようとしましたか?
Shaull、2013年

エッジについてのあなたの考えは半分正しいようです。エッジは、比較の結果ではなく、比較が行われたことのみを示します。したがって、エッジの有無だけでは多くの情報はエンコードされず、発生した比較のみがエンコードされます。この問題を処理する自然な方法は、方向が好ましい方向などの加重/方向付けされたエッジを含みます...フローの問題に似ているようです... "スライダー"と言いますが、それは多値ですか?またはバイナリ?「スライダー」は評価のように私に多価に聞こえました。
vzn 2013

あなたの質問が何であるかを明確にできますか?グラフの選び方について質問がありますか?または、グラフと各エッジの一連の評価が与えられたときに、すべてのエッセイをランク付けする方法について質問していますか?前者は「実験デザイン」の一般的なカテゴリーに該当します(そして私の答えはそれを扱います)。後者は、「データ分析」の一般的なカテゴリの下にあります(そして、私の答えとvznの答えの両方が、そのための役立つリソースを提供します)。
DW

実際にランキングとスコアリングを計算しましたが、以下のアプローチを試みます。
ismail

同様の問題のいくつかの分析では、「ランキング」と「スコアリング」という単語は交換可能です。これは、今後のレビューと編集から表示されます。システムでは、「ランク付け」は、比較データに基づくコンピューターベースのランクの推定と呼ばれ、「スコアリング」は、エッセイ品質に関する人間ベースの主観的決定(また、通常は「評価」と呼ばれます)、ランキングプロセスに従います。&youreは主に比較ペアの配布に関心があります...
vzn

回答:


7

これには2つの部分があります。(a)グラフの選択(実験計画))を、学生がピアグレーディングプロセスで評価するエッセイのペアを決定すること、および(b)学生のピアグレードに基づいてすべてのエッセイをランク付けして、教師がランク付けする必要があるかを決定します。それぞれにいくつかの方法を提案します。

グラフの選択

問題文。 最初のステップは、グラフを生成することです。つまり、ピアグレーディングの演習中に、生徒に表示するエッセイのペアを選択する必要があります。

推奨されるソリューション。このタスクでは、すべての3正規(単純)グラフのセットからランダムに一様に選択されたランダムグラフを生成することをお勧めします。G

正当化と詳細。 ランダムなd正則グラフが優れたエキスパンダーます。実際、通常のグラフには漸近的に最適な拡張係数があります。また、グラフはランダムであるため、グレーディングが歪むリスクを排除できます。グラフをランダムに均一に選択することにより、すべての生徒にとって均等なアプローチが保証されます。一様にランダムな3正規グラフが目的に最適であると思います。

これは問題を提起します:個の頂点で3正規(単純)グラフを一様にランダムに選択する方法は?

幸い、これを行うための既知のアルゴリズムがあります。基本的に、次のことを行います。

  1. ポイントを作成します。これは、n個の頂点のそれぞれの3つのコピーと考えることができます。これらの3つのn個のポイントでランダムに完全に一致するランダムな完全一致を生成します。(つまり、3つのnポイントがすべてペアになるまで、次の手順を繰り返します。ペアになっていないポイントを選択し、ペアになっていないポイントのセットからランダムに一様に選択された別のポイントとペアにします。)

  2. マッチングによってマッチングされた2つのポイントごとに、対応する頂点(それらはコピーである)の間にエッジを描画します。これにより、個の頂点のグラフが表示されます。

  3. 次に、結果のグラフが単純かどうかをテストします(つまり、自己ループがなく、エッジが繰り返されていない)。単純でない場合は、グラフを破棄してステップ1に戻ります。単純な場合は、これで完了です。このグラフを出力します。

この手順では、3つの正則(単純)グラフのセットに均一な分布が生成されることがわかっています。また、ステップ3では、結果のグラフを受け入れる確率が一定であるため、平均してアルゴリズムは回の試行を行うため、これはかなり効率的です(たとえば、多項式の実行時間)。O1

私はこのアプローチがBollobas、Bender、およびCanfieldの功績であることを見てきました。このアプローチはウィキペディアでも簡単要約されています。このブログ投稿でディスカッション見つけることもできます。

技術的に言えば、これは数が偶数であることを必要とします(そうでなければ、n個の頂点に3正規グラフはありません)。ただし、これは簡単に処理できます。たとえば、nが奇数の場合、1つのエッセイをランダムに選択し、それを脇に置いて、残りのエッセイにランダムな3つの正規グラフを生成し、脇に置いたエッセイからさらに3つのエッジをランダムに選択した他のエッセイに追加できます。(これは、実際に4回採点されるエッセイが3つあることを意味しますが、害はありません。)

すべてのエッセイのランキング

問題文。 これで、グラフが完成しました。これらのエッセイのペア(グラフの端で示されている)を生徒に提示し、ピアグレーディングの演習中に生徒が採点できるようにしました。あなたはエッセイの各比較の結果を持っています。ここでの課題は、すべてのエッセイの線形ランキングを推測して、教師に評価させるエッセイを決定するのに役立てることです。

解決。Bradley-Terryモデルの使用をお勧めします。これは、この問題を正確に解決する数学的アプローチです。これは、いくつかの選手のペア間の試合結果に基づいて、一部のスポーツで選手をランク付けするために設計されました。各プレーヤーには実数として定量化できる(不明な)強さがあり、アリスがボブを倒す確率は、強さの差の滑らかな関数によって決定されます。次に、ペアごとの勝利/損失の記録を考慮して、各プレーヤーの強さを推定します。

これはあなたにぴったりです。それぞれのエッセイをプレイヤーとして扱うことができます。2つのエッセイ(ピアの採点プロセス中)の各比較は、それらの一致の結果のようなものです。Bradley-Terryモデルを使用すると、そのすべてのデータを取得し、各エッセイの強度を推測できます。強度が高いほど、エッセイが優れています。これらの強みを使用して、すべてのエッセイをランク付けできます。

j

あなたが持っているデータを前提として、すべてのエッセイの評価またはランキングを推測する別の方法があります。たとえば、Eloメソッドは別です。それらのいくつかを別の質問に対する私の回答に要約します。詳細についてはその答えを読んでください。

もう1つのコメント:Bradley-Terryモデルは、2人のプレーヤー間の各比較の結果が勝敗(つまり、バイナリの結果)であると想定しています。ただし、実際にはより詳細なデータがあるように思われます。スライダーは、同級生が1つのエッセイを他のエッセイよりもどれだけ高く評価したかを大まかに見積もります。最も単純なアプローチは、各スライダーをバイナリ結果にマップすることです。ただし、本当に必要な場合は、より高度な分析を使用して、すべてのデータを使用できる場合があります。Bradley-Terryモデルでは、ロジスティック回帰を行います。順序付けられたロジットを使用するように一般化した場合、スライダーからの結果はバイナリではなく、いくつかの可能性の1つであることを考えると、各スライダーから得られる追加情報を利用できると思います。

先生の効率的な使い方

すべてのエッセイの上位X%と下位X%を教師に手動で採点させることをお勧めします(ピアの採点の結果から推測されるランキングを使用)。これはうまくいくかもしれませんが、教師の限られた時間を最も効率的に使用することではないと思います。代わりに、私は別のアプローチを提案したいと思います。

エッセイのサブセットを教師が採点することをお勧めします。サブセットは教師が採点しなかったすべてのエッセイに対して可能な限り最高の校正を提供するように慎重に選択されています。これについては、可能な回答の範囲をカバーするエッセイのサンプルを選択した場合に役立つと思います(したがって、すべてのエッセイについて、それほど遠くない教師によって採点されたエッセイがいくつかあります)。このため、私はあなたが試すことを検討できる2つのアプローチを考えることができます:

  • kkk

  • kdeejeejSdeS=eSdeeeSke1e2eke+1de{e1e2e}ee{e1e2e}kkk

私はこれらのアプローチのいずれかが教師にエッセイの上位X%と下位X%を採点させるよりも正確なスコアを提供するのではないかと思います-最高かつ最悪のエッセイはおそらく真ん中のエッセイの塊を代表していないためです。

de1e2=se1se22seeピアグレーディングの結果に基づいてTerry-Bradleyモデルによって推定されたとおり。ただし、もっと洗練されたことができます。たとえば、エッセイ間の正規化されたレーベンシュタイン編集距離を計算できます。e1e2k


元の問題ステートメントと比較して従うのは難しい。比較を均等に分散するという問題を解決していますか?
vzn 2013

2
@vzn、わかりやすくするために回答を編集しました。質問は、グラフの選択方法、つまり、ピアグレーディング中に生徒に比較するエッセイのペアを尋ねているようです。私の答えの前半は、その質問に対する解決策を提供します。私の回答の2番目の部分では、ピアグレーディングの結果を使用して、すべてのエッセイをランク付けし、教師がどのエッセイを採点するかを選択する方法について説明します。
DW

0

入力と出力の正確ではない説明と計算対象に基づいたいくつかのアイデア(おそらくそれを念頭に置いて質問を修正できます)。

どうやら、これは基本的にFacebookの設立に端を発した「ホットか否か」の「顔面衝突」の問題である(映画「ソーシャルネットワーク」に描かれているように)。オリジナルの「ゲーム」では、ユーザーは2つの写真を持ち、より魅力的な女性から選択しました。システムでは、2つのエッセイから選択できますが、そのうちの1つが優れています。

明らかにサイバー民間伝承から、チェスの試合採点システムで使用されるEloランキングアルゴリズムを使用して、収束ソリューションを計算できます(この場合、基本的に、表現された有向選好グラフと一致するエッセイのスコアを推定します)が、まだ注意深く見ていませんこれの説明/記述。

別のオプションは、Pagerankを使用することです。有向リンクグラフに基づいてページの推定影響を計算します。エッセイの好みは、ウェブページへのリンクに似ています。

この問題は、科学論文が他の論文を引用し、論文の影響が推定される引用分析にも似ているようです。[ただし、Pagerankもこの分野の主要なアルゴリズムです。]

[1] facemashアルゴリズムにEloランキングを使用する理由 スタックオーバーフロー

[2] Eloランキングシステム、ウィキペディア

[3] ページランク、ウィキペディア

[4] 引用分析、ウィキペディア


Eloの適用方法のスケッチ:ゲームの試合はエッセイの比較のようなものです。エッセイにはスコアがあり、スコアの高いエッセイほど多くの試合に勝ちます。アルゴリズムは、すべての一致と最も一致するスコアを計算します。
vzn 2013

引用のアイデアは、すべての比較がすべてのエッセイにいくらか均等に分布していると想定する傾向があることに注意してください。そうでない場合、1つのエッセイがより多くの比較にある場合、相対的な好意が高まる可能性があります。したがって、そのアプローチの一部は、比較のバランスを調整することでもあります。これは、あなたが参照しているようで、すべてのプレーヤーにマッチを分散させようとする問題に似ています...
vzn
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.