正規分布のパラメーターの推定:平均ではなく中央値?


15

正規分布のパラメーターを推定するための一般的なアプローチは、平均とサンプルの標準偏差/分散を使用することです。

ただし、外れ値がある場合は、中央値と中央値からの中央値偏差がより堅牢になりますよね?

いくつかのデータセットでは、私は、によって推定正規分布しようとしたN(median(x),median|xmedian(x)|)古典よりもはるかに優れフィット作るように思わN(μ^,σ^)の平均を使用してのRMS偏差。

データセットにいくつかの異常値があると仮定した場合、中央値を使用しない理由はありますか?このアプローチのリファレンスを知っていますか?Googleでのクイック検索では、ここで中央値を使用する利点を説明する有用な結果が見つかりませんでした(ただし、明らかに、「正規分布パラメーター推定中央値」は検索用語の特定のセットではありません)。

偏差の中央値は偏っていますか?乗算する必要がありn1nバイアスを減らすためにますか?

ガンマ分布や指数関数的に修正されたガウス分布(パラメーター推定にスキューネスが必要であり、外れ値が実際にこの値を台無しにする)などの他の分布に対する同様の堅牢なパラメーター推定アプローチを知っていますか?


2
外れ値がある場合、分布が実際には正規分布ではない可能性があります。もちろん、これはあなたの質問には答えませんが、IMO、これは常に楽しまなければならない可能性です。
sds

2
単純で、きれいな、数学的分布がありません。私は実際には乱雑な実際のデータを持っています。状況を分析的に処理することができなくなるため、完全に適合する分布はありません。そして、外れ値は実際に私の興味です。:-)
エーリッヒシューベルト

回答:


15

汚染されたガウス分布から引き出されたデータを含む例では、med |の代わりにを使用することにより、データの大部分を記述するパラメーターのより良い推定値が得られるという観察x med x | ここで、mad x は次のとおりです。怒ってmed|バツmedバツ|怒ってバツ

怒って=1.4826×med|バツmedバツ|

--where、 確保するように設計された整合性因子であることをE 狂牛病X 2= VarのX xは本来ガウスによって作られたuncontaminated--ある(ウォーカー、H。(1931))。Φ10.751=1.4826

E怒ってバツ2=ヴァールバツ
バツ

この場合、サンプル平均の代わりにを使用しない理由は考えられません。マッドの効率が低い(ガウスで!)ことは、例でマッドを使用しない理由になる可能性があります。ただし、madの代わりに、同様に堅牢で高効率の代替が存在します。それらの1つはQ nmed怒って怒って怒ってQn。この推定器には、他にも多くの利点があります。また、外れ値に対して非常に鈍感です(実際には、狂人とほとんど同じように鈍感です)。気違いとは対照的に、それは場所の推定に基づいて構築されておらず、データの汚染されていない部分の分布が対称的であると仮定していません。狂ったように、それは順序統計に基づいているため、サンプルの基礎となる分布に瞬間がない場合でも常に明確に定義されます。気違いのように、それは単純な明示的な形式を持っています。狂人よりも、あなたが説明する例では代わりにサンプル標準偏差を使用する理由はありません(Q nの詳細については、Rousseeuw and Croux 1993を参照してください)。QnQn

バツΓνλ

medバツλν1/3

そして

mad(x)λν

ν>1.5

ν^=(med(x)mad(x))2

そして

λ^=mad(x)2med(x)

完全な導出については、Chen and Rubin(1986)を参照してください。

  • J. ChenとH. Rubin、1986年。ガンマ分布とポアソン分布の中央値と平均値の差の境界、Statist。プロバブ。Lett。、4、281–283。
  • PJ Rousseeuw and C. Croux、1993.アメリカ統計協会の中央値絶対偏差ジャーナル、Vol。88、No。424、pp。1273-1283
  • ウォーカー、H。(1931)。統計的方法の歴史の研究。ボルチモア、MD:ウィリアムズ&ウィルキンス社、24〜25ページ。

1
Φ10.7511.4826
エーリッヒシューベルト

@ErichSchubert:そのとおりです。2番目の逆を訂正しました。
user603

2
+1。しかし、私はあなたが「効率係数」を誤って特徴付けていると思う:それは類似していないn/n1、後者であるため、分散のための要因を普遍的なあなたの要因だけで正規分布に固有であるのに対し:で異なる分布と心、あなたの要因を変更する必要があります。この違いは、分散とSDがMADよりも多くのアプリケーションを見ている重要な理由の1つです。
whuber

1
@whuber:このためのおかげで、私は今、「これは似ている私の文を実現精神では」簡単に誤解されることができます。削除しました。
user603

1
ExNormal部分を別の質問にしました:stats.stackexchange.com/questions/48907/…しかし、もう1つあります。
エーリッヒシューベルト

7

あなたが主張するように、データがわずかな割合の外れ値を除いて正常である場合、中央値と中央値の絶対偏差は総誤差に対してロバストになりますが、範囲外のデータの情報を非常に効率的に使用しません。

外れ値の割合に関する事前の限界がわかっている場合は、その割合を平均値で調整し、標準偏差をウィンソライズすることができます。そのような知識を必要としない代替手段は、位置にM推定量を使用し、分散に関連する量を使用することです。仮定が正しい場合(少数の外れ値を除き、データが実際に正常である場合など)の効率の向上は、状況によっては大きくなる可能性があります。

しかし-中央値偏差は、標準偏差の推定値としてバイアスされていないようなnn1調整; 調整されていないサンプルの平均平方は、漸近的に分散に向かっていますが、サンプルの絶対偏差の中央値は、漸近的に母標準偏差に向かっていません。単に一貫性を得るために定数乗算する必要があります。これを行った後も、未調整の平均二乗と同じ意味でバイアスがかけられた小さなサンプルです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.