質問:
試験問題のバイナリデータがあります(正しい/正しくない)。一部の個人は、質問とその正解のサブセットに事前にアクセスした可能性があります。私は誰、何人、または誰がわからない。不正行為がない場合、アイテム正しい応答の確率をとしてモデル化するとします。ここで、は質問の難易度を表し、は個人の潜在能力です。これは、Rのltmのrasch()のような関数で推定できる非常に単純な項目応答モデルです。潜在変数の推定(個人にインデックスを付ける)に加えて、個別の推定にアクセスできますL O G I T ((P iは = 1 | Z ))= β I + Z β I Z 、Z jは j個のq J 不正行為が不可能な別のデータセットから派生した同じ潜在変数の。
目標は、だまされた可能性が高い個人と、だまされたアイテムを識別することです。あなたが取るかもしれないいくつかのアプローチは何ですか?生データに加えて、、、およびがすべて利用可能ですが、最初の2つは不正のためにバイアスがあります。理想的には、ソリューションは確率的クラスタリング/分類の形で提供されますが、これは必須ではありません。正式なアプローチと同様に、実用的なアイデアは大歓迎です。 Z j個のq jを
これまで、スコアの高い個人と低い個人のペアの質問スコアの相関を比較しました(は彼らがだました確率の大まかな指標)。たとえば、個人をでソートし、個人の質問スコアの連続するペアの相関をプロットしました。また、値がの分位よりも大きい個体のスコアの平均相関をプロットしてみました、関数として。どちらのアプローチにも明らかなパターンはありません。のq J - Z j個のq J - Z j個のq J - Z jをNTHの q個の J - Z jはN
更新:
@SheldonCooperのアイデアと、@ whuberが私に向けてくれた便利なFreakonomicsの論文を組み合わせました。他のアイデア/コメント/批評を歓迎します。
してみましょう人も問題についてのバイナリスコア。推定項目応答モデル \ beta_iは、アイテムの容易性パラメータであり、z_jが潜在能力の変数である(A、より複雑なモデルが置換されていてもよい; I私のアプリケーションで2PLを使用しています。元の投稿で述べたように、別のデータセット\ {y_ {ij} \}(異なるアイテム、同じ人)からの能力変数の推定値\ hat {q_j}があります。具体的には、\ hat {q_j}は、上記と同じアイテム応答モデルからの経験的ベイズ推定値です。 J 、I 、L 、O G I T (P R (X I 、J = 1 | Z J)= β I + Z J、β I Z J
観測されたスコアの確率は、アイテムの容易さと個人の能力に応じて、ここでは、正しい応答であり、は逆ロジットです。次に、アイテムと人物の特性を条件として、人物が観測値持つ結合確率はあり、同様に、アイテムが観測値を持つ結合確率は、P 、I 、J = P R (X I 、J = X I J | ^ β I、^ q個のJ)= P I 、J(^ β I、^ Q J)X I 、J(1 - P I J(^ β I、^ q個のJ))1 - X
私が試した追加のステップは、最も可能性の低い人のr%(つまり、ソートされたp_j値のr%が最も低い人)を取り、観測スコアx_j間の平均距離を計算することです可能な詐欺師です)、r = 0.001、0.002、...、1.000に対してプロットします。平均距離は、r = 0.001からr = 0.025まで増加し、最大値に達し、r = 1で最小値までゆっくりと減少します。