正規(またはその他の)ディストリビューションの「ブレーク」を正式にテストする方法


10

社会科学では、何らかの方法で、通常は分布するはずの変数が、特定の点の周りの分布に不連続性をもたらすことがよくあります。

たとえば、「合格/不合格」などの特定のカットオフがあり、これらの対策が歪みの影響を受けている場合、その時点で不連続性がある可能性があります。

有名な例の1つ(以下に引用)は、学生の標準化されたテストのスコアが、50%から60%までの質量がほとんどなく60%から65%程度の過剰な質量がある60%を除いて、基本的にどこにでも分布します。これは、教師が自分の生徒の試験を採点する場合に発生します。著者は、教師が生徒の試験合格を本当に支援しているかどうかを調査します。

間違いなく最も説得力のある証拠は、さまざまなテストのさまざまなカットオフの周りに大きな不連続があるベルカーブのグラフを示すことです。しかし、統計的検定をどのように作成しますか?彼らは補間を試みてから、分数の上または下の分数を比較し、カットオフの上下5ポイントの分数についてもt検定を行いました。これらは賢明ですが、アドホックです。誰かがもっと良いことを考えることができますか?

リンク: 生徒と学校の評価における規則と裁量:ニューヨークリージェンツ試験の事例 http://www.econ.berkeley.edu/~jmccrary/nys_regents_djmr_feb_23_2011.pdf

黒の操作可能なスコアのテストスコアの分布は、カットオフ以下の密度の急激な低下と対応する上昇


ただ明確にするために-たとえば、正規性の一般的な欠如、または事前に指定されたポイントでの不連続性の存在をテストしていますか?あなたの例は後者ですが、もちろん、Anderson-DarlingやShapiro-Wilk for Normalityなどの適合度テストは役立ちますが、非常に具体的な代替案では、より強力なテストを構築できます。また、上のグラフには、明らかに数千のサンプルがあります。これも典型的でしょうか?
jbowman 2011

回答:


6

質問を適切に構成し、スコアの有用な概念モデルを採用することが重要です。

質問

55、65、85などの不正の可能性のあるしきい値は、データとは関係なくアプリオリに知られています。データから決定する必要はありません。(したがって、これは外れ値の検出の問題でも、分布の当てはめの問題でもありません。)テストでは、これらのしきい値より少し小さい(すべてではない)スコアがそれらのしきい値に(または、おそらくこれらのしきい値をちょうど超えて)移動したという証拠を評価する必要があります。

概念モデル

概念モデルの場合、スコアが正規分布(他の簡単にパラメーター化された分布)になる可能性は低いことを理解することが重要です。これは、投稿された例と、元のレポートのその他すべての例で非常に明確です。これらのスコアは学校の混合を表しています。学校内の分布が正常であったとしても(そうではない)、混合は正常ではない可能性があります。

単純なアプローチは、真のスコア分布があることを受け入れます。これは、この特定の不正な形式を除いて報告されるものです したがって、これはノンパラメトリック設定です。広すぎるように見えますが、実際のデータで予測または観察できるスコア分布にはいくつかの特徴があります。

  1. i1ii+11i99

  2. スコア分布のいくつかの理想化された滑らかなバージョンを中心に、これらのカウントに変動があります。これらの変動は、通常、カウントの平方根に等しいサイズになります。

  3. titic(i)δ(ti)c(i)t(i)

  4. δ(i)i=1,2,

tδ(1)=0δ0δ(1)>0

テストの作成

c(i)=c(i+1)c(i)ittt+1

c(i)=c(i+1)c(i)=c(i+2)2c(i+1)+c(i),

i=t1c(t+1)c(t)c(t)c(t1)

c(t1)=c(t+1)2c(t)+c(t1)

var(c(t1))var(c(t+1))+(2)2var(c(t))+var(c(t1)).

var(c(i))c(i)i

z=c(t1)/c(t+1)+4c(t)+c(t1)

c(t1)αΦtΦ(z)<α

たとえば、3つの正規分布の混合からiidを描画した、この真のテストスコアのセットを考えてみます

真のスコアのヒストグラム

t=65δ(i)=exp(2i)

不正行為後のスコアのヒストグラム

zt

Zのプロット

z

z=4.19Φ(z)=0.0000136

z

このテストを複数のしきい値に適用する場合、テストサイズのBonferroni調整が賢明です。同時に複数のテストに適用する場合の追加の調整も良い考えです。

評価

zz とてもシンプルなので、シミュレーションは実行可能で、実行も高速です。


z

1

ディップを明示的に予測するモデルをフィッティングし、それが単純なモデルよりもデータに非常によく適合することを示すことをお勧めします。

次の2つのコンポーネントが必要です。

  • スコアの初期分布、
  • スコアがしきい値を下回ったときにスコアの再確認(正直かどうか)の手順。

t

pfinal(s)=pinitial(s)pinitial(s)m(st)+δ(s=t)s=0t1pinitial(s)m(st),
  • pfinal(s)
  • pinitial(s)
  • m(st)st
  • δ(s=t)s=t

m(st)aqtsa

初期分布として、ポアソン分布またはガウス分布を使用することができます。もちろん、同じテストをするのが理想的ですが、教師の1つのグループはしきい値を提供し、もう1つのグループはしきい値を提供しません。

tiai

ノート:

  • 合格点を下回っている場合は、テストを再確認する手順があります。次に、どのインスタンスが正直で、どのインスタンスが正直であったかを言うのはより困難です。
  • m(st)s
  • tδ(s=t)

それが私の正確な質問に答えているかわかりません。この場合、試験を再確認することはできません。観察されるのは、最終スコアの分布だけです。分布はほとんど正常です。例外として、操作が疑われる特定のカットオフポイント付近では、通常の曲線に中断があります。その時点で曲線が「滑らか」になるというヌルの場合、「でこぼこ」である別の仮説に対してそれをどのようにテストできますか
d_a_c321

X2pfinalX2s=099|p(s+1)p(s)|2)興味深いかもしれませんが、基礎となる仮定などを確認することが重要です(たとえば、2点についての質問が多いテストの場合、「初期の」ギザギザがかなり高い場合があります)。生データ(つまり、合計スコアだけでなくすべての回答)にアクセスできる場合、テストの余地はさらにあります...
Piotr Migdal

1

この問題を2つの副問題に分けます。

  • データに適合するように分布のパラメーターを推定する
  • 近似分布を使用して外れ値検出を実行する

どちらかの副問題に取り組むには、さまざまな方法があります。

ポアソン分布は、独立して同一に分布(iid)されている場合、データに適合しているように見えますが、もちろんそうではありません。単純に分布のパラメーターを推定しようとすると、異常値によって歪められます。これを克服する2つの可能な方法は、ロバスト回帰手法、または交差検証などのヒューリスティック手法を使用することです。

外れ値の検出のために、再び数多くのアプローチがあります。最も簡単な方法は、ステージ1で近似した分布からの信頼区間を使用することです。他の方法には、ブートストラップ法やモンテカルロアプローチがあります。

これは、分布に「ジャンプ」があることを通知することはありませんが、サンプルサイズに対して予想されるよりも多くの外れ値があるかどうかを通知します。

より複雑なアプローチは、複合分布などのデータのさまざまなモデルを作成し、ある種のモデル比較方法(AIC / BIC)を使用して、どのモデルがデータに最適であるかを判断することです。ただし、単に「予想される分布からの逸脱」を探しているのであれば、これはやり過ぎのようです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.