多問試験での不正行為のパターンの検出
質問: 試験問題のバイナリデータがあります(正しい/正しくない)。一部の個人は、質問とその正解のサブセットに事前にアクセスした可能性があります。私は誰、何人、または誰がわからない。不正行為がない場合、アイテム正しい応答の確率をとしてモデル化するとします。ここで、は質問の難易度を表し、は個人の潜在能力です。これは、Rのltmのrasch()のような関数で推定できる非常に単純な項目応答モデルです。潜在変数の推定(個人にインデックスを付ける)に加えて、個別の推定にアクセスできますL O G I T ((P iは = 1 | Z ))= β I + Z β I Z 、Z jは j個のq Jiiilogit((pi=1|z))=βi+zlogit((pi=1|z))=βi+zlogit((p_i = 1 | z)) = \beta_i + zβiβi\beta_izzzz^jz^j\hat{z}_jjjjq^jq^j\hat{q}_j 不正行為が不可能な別のデータセットから派生した同じ潜在変数の。 目標は、だまされた可能性が高い個人と、だまされたアイテムを識別することです。あなたが取るかもしれないいくつかのアプローチは何ですか?生データに加えて、、、およびがすべて利用可能ですが、最初の2つは不正のためにバイアスがあります。理想的には、ソリューションは確率的クラスタリング/分類の形で提供されますが、これは必須ではありません。正式なアプローチと同様に、実用的なアイデアは大歓迎です。 Z j個のq jをβ^iβ^i\hat{\beta}_iz^jz^j\hat{z}_jq^jq^j\hat{q}_j これまで、スコアの高い個人と低い個人のペアの質問スコアの相関を比較しました(は彼らがだました確率の大まかな指標)。たとえば、個人をでソートし、個人の質問スコアの連続するペアの相関をプロットしました。また、値がの分位よりも大きい個体のスコアの平均相関をプロットしてみました、関数として。どちらのアプローチにも明らかなパターンはありません。のq J - Z j個のq J - Z j個のq J - Z jをNTHの …