質問を適切に構成し、スコアの有用な概念モデルを採用することが重要です。
質問
55、65、85などの不正の可能性のあるしきい値は、データとは関係なくアプリオリに知られています。データから決定する必要はありません。(したがって、これは外れ値の検出の問題でも、分布の当てはめの問題でもありません。)テストでは、これらのしきい値より少し小さい(すべてではない)スコアがそれらのしきい値に(または、おそらくこれらのしきい値をちょうど超えて)移動したという証拠を評価する必要があります。
概念モデル
概念モデルの場合、スコアが正規分布(他の簡単にパラメーター化された分布)になる可能性は低いことを理解することが重要です。これは、投稿された例と、元のレポートのその他すべての例で非常に明確です。これらのスコアは学校の混合を表しています。学校内の分布が正常であったとしても(そうではない)、混合は正常ではない可能性があります。
単純なアプローチは、真のスコア分布があることを受け入れます。これは、この特定の不正な形式を除いて報告されるものです。 したがって、これはノンパラメトリック設定です。広すぎるように見えますが、実際のデータで予測または観察できるスコア分布にはいくつかの特徴があります。
i − 1私i + 11 ≤ I ≤ 99
スコア分布のいくつかの理想化された滑らかなバージョンを中心に、これらのカウントに変動があります。これらの変動は、通常、カウントの平方根に等しいサイズになります。
t私≥ トン私c (私)δ(t − i )c (i )t (私)
δ(私)私は= 1 、2 、...
tδ(1 )= 0δ0δ(1)>0
テストの作成
c′(i)=c(i+1)−c(i)ittt+1
c′′(i)=c′(i+1)−c′(i)=c(i+2)−2c(i+1)+c(i),
i=t−1c(t+1)−c(t)c(t)−c(t−1)
c′′(t−1)=c(t+1)−2c(t)+c(t−1)
var(c′′(t−1))≈var(c(t+1))+(−2)2var(c(t))+var(c(t−1)).
var(c(i))≈c(i)i
z=c′′(t−1)/c(t+1)+4c(t)+c(t−1)−−−−−−−−−−−−−−−−−−−−√
c′′(t−1)αΦtΦ(z)<α
例
たとえば、3つの正規分布の混合からiidを描画した、この真のテストスコアのセットを考えてみます。
t=65δ(i)=exp(−2i)
zt
z
z=−4.19Φ(z)=0.0000136
z
このテストを複数のしきい値に適用する場合、テストサイズのBonferroni調整が賢明です。同時に複数のテストに適用する場合の追加の調整も良い考えです。
評価
zz とてもシンプルなので、シミュレーションは実行可能で、実行も高速です。