汚染されたガウス分布から引き出されたデータを含む例では、med |の代わりにを使用することにより、データの大部分を記述するパラメーターのより良い推定値が得られるという観察。x − med (x )| ここで、mad (x )は次のとおりです。怒ってmed | x − med (x )|マッド(x )
mad = 1.4826 × med | x − med (x )|
--where、 確保するように設計された整合性因子であることをE (狂牛病(X )2)= Varの(X )xは本来ガウスによって作られたuncontaminated--ある(ウォーカー、H。(1931))。(Φ− 1(0.75 ))− 1= 1.4826
E (マッド(x )2)= Var (x )
バツ
この場合、サンプル平均の代わりにを使用しない理由は考えられません。マッドの効率が低い(ガウスで!)ことは、例でマッドを使用しない理由になる可能性があります。ただし、madの代わりに、同様に堅牢で高効率の代替が存在します。それらの1つはQ nmed怒って怒って怒ってQn。この推定器には、他にも多くの利点があります。また、外れ値に対して非常に鈍感です(実際には、狂人とほとんど同じように鈍感です)。気違いとは対照的に、それは場所の推定に基づいて構築されておらず、データの汚染されていない部分の分布が対称的であると仮定していません。狂ったように、それは順序統計に基づいているため、サンプルの基礎となる分布に瞬間がない場合でも常に明確に定義されます。気違いのように、それは単純な明示的な形式を持っています。狂人よりも、あなたが説明する例では代わりにサンプル標準偏差を使用する理由はありません(Q nの詳細については、Rousseeuw and Croux 1993を参照してください)。QnQn
X 〜Γ (ν、λ )
MED (X )≈ λ (ν- 1 / 3 )
そして
mad(x)≈λν−−√
ν>1.5
ν^=(med(x)mad(x))2
そして
λ^=mad(x)2med(x)
完全な導出については、Chen and Rubin(1986)を参照してください。
- J. ChenとH. Rubin、1986年。ガンマ分布とポアソン分布の中央値と平均値の差の境界、Statist。プロバブ。Lett。、4、281–283。
- PJ Rousseeuw and C. Croux、1993.アメリカ統計協会の中央値絶対偏差ジャーナル、Vol。88、No。424、pp。1273-1283
- ウォーカー、H。(1931)。統計的方法の歴史の研究。ボルチモア、MD:ウィリアムズ&ウィルキンス社、24〜25ページ。