どのような(対称)分布について、サンプルはサンプル中央値よりも効率的な推定量を意味しますか?


17

サンプルの中央値は、外れ値を無視するため、サンプル平均よりも中心傾向のより堅牢な尺度であるという信念のもとで努力しました。したがって、(別の質問の回答で)正規分布から引き出されたサンプルの場合、サンプル平均の分散がサンプル中央値の分散よりも小さいこと(少なくともが大きい)を知って驚いた。n

私は数学的にこれが本当である理由を理解しています。他の分布の平均ではなく、中央値をいつ使用するかについての直感に役立つ「哲学的」な見方はありますか?

特定の分布に関する質問にすばやく答えるのに役立つ数学的なツールはありますか?

回答:


20

平均と分散が有限である対称分布に考慮を制限すると仮定します(たとえば、Cauchyは考慮から除外されます)。

さらに、最初は継続的な単一モードのケースに制限し、実際にはほとんどが「いい」状況に制限します(ただし、後で戻って他のいくつかのケースについて説明します)。

相対分散はサンプルサイズに依存します。漸近的分散の比(倍)を議論することは一般的ですが、サンプルサイズが小さくなると状況が多少異なることに留意する必要があります。(中央値は、漸近的挙動が示唆するよりも顕著に良いまたは悪いことがあります。たとえば、通常では、効率は63%ではなく約74%です。漸近的挙動は、一般にかなり穏やかただし、サンプルサイズ。)n = 3nn=3

漸近線は非常に簡単に処理できます。

平均:分散=。σ 2n×σ2

中央値:分散=ここで、は中央値での密度の高さです。1n× fm1[4f(m)2]f(m)

したがって、場合、中央値は漸近的により効率的になります。f(m)>12σ

[通常の場合、なので、、そこから漸近的な相対効率)1f(m)=12πσ 2/π1[4f(m)2]=πσ222/π

中央値の分散は中心に非常に近い密度の挙動に依存し、平均の分散は元の分布の分散に依存することがわかります(何らかの意味でどこでも密度の影響を受けます特に、中心から遠く離れて動作する方法によって)

つまり、中央値は平均値よりも外れ値の影響を受けにくく、分布の裾が大きい場合(より多くの外れ値を生成する)平均よりも分散が小さいことがよくわかります。中央値はインライアです。多くの場合、(一定の変動に対して)2つが一緒になる傾向があります。

つまり、大まかに言って、尾が重くなると、(固定値)分布が同時に「ピーク」になる傾向があります(ゆるい意味でより尖度が高くなります)。ただし、これは特定のことではありません。一般的に考えられる密度の範囲全体に当てはまる傾向がありますが、常に当てはまるわけではありません。それが成り立つ場合、中央値の分散は減少します(分布は中央値のすぐ近くで確率が高くなるため)が、平均の分散は一定に保たれます(を修正したため)。σ 2σ2σ2

そのため、さまざまな一般的なケースにおいて、中央値は尾が重い場合の平均よりも「良い」傾向があります(ただし、反例を作成するのは比較的簡単です)。そのため、いくつかのケースを検討することができます。これにより、よく見られるものを表示できますが、それらを読みすぎないでください。

中央値は、通常時の平均値の約63.7%(大きい場合)であることがわかっています。n

ロジスティック分布はどうでしょうか。正規分布と同様に、中心はほぼ放物線状ですが、テールがより重い(が大きくなると指数関数的になります)。x

スケールパラメーターを1にすると、ロジスティックの分散および高さ中央値1/4になるため、ます。分散の比率はため、大規模なサンプルでは、​​中央値は平均の約82%の効率です。1π2/314f(m)2=4π2/120.82

指数関数的なテールを持ち、ピークが異なる他の2つの密度を考えてみましょう。

まず、標準形式の分散1と高さがの中心にある双曲線正割()分布sechです。したがって、漸近分散の比率は1です(2つは等しく大規模なサンプルで効率的)。ただし、小さいサンプルでは、​​平均の方が効率的です(たとえば、分散は、場合の中央値の分散の約95%です)。12n=5

ここで、これらの3つの密度(分散を一定に保持)を進めると、中央の高さがどのように増加するかを確認できます。

ここに画像の説明を入力してください

さらに高くすることはできますか?確かにできます。たとえば、二重指数関数を考えます。標準形式には分散2があり、中央の高さは(したがって、図のように単位分散にスケーリングすると、ピークは、0.7を少し上回ります。中央値の漸近分散は平均の半分です。1212

与えられた分散に対して分布のピークをさらに大きくする(おそらく、テールを指数関数よりも大きくすることにより)場合、中央値ははるかに効率的です(相対的に言えば)。ピークがどれだけ高くなるかに制限はありません。

代わりに、たとえばt分布の例を使用した場合、ほぼ同様の効果が見られますが、進行は異なります。クロスオーバーポイントは dfを少し下回ります(実際には4.68前後)-dfが小さい場合は中央値が効率的で、dfが大きい場合は平均が効率的です。ν=5

...

サンプルサイズが有限の場合、中央値の分布の分散を明示的に計算できる場合があります。それが実行可能でない場合、または単に不便な場合でも、シミュレーションを使用して、分布から抽出されたランダムサンプル全体の中央値の分散(または分散の比率*)を計算できます(これは上記の小さなサンプルの数値を取得するために行いました) )。

*実際に平均の分散を必要としないことが多い場合でも、分布の分散を知っていれば計算できるため、制御変量のように振る舞うので、計算の効率が向上する可能性があります(平均と中央値はしばしば非常に相関しています)。


1

中央値は、尾が重い場合は一般に平均よりも良くなりますが、尾が軽い場合は平均が最適になります。興味深い具体例は、 密度関数 た二重指数(またはラプラス)分布https://en.wikipedia.org/wiki/Laplace_distributionです。 は、期待値および分散2 を持ちます iidサンプルとします。次に、大規模なサンプルの場合、算術平均は(近似)分散(正確)正規分布を持ち、中央値は分散漸近正規分布を μ X 1

f(x)=12e|xμ|,<x<
μX1,X2,,Xn2/n14nf(μ)2=14n/4=1/n<2/n、その差はかなり大きいです。

正規分布()の場合、逆の比較が得られます。算術平均には分散(正確)あり、中央値には分散(およそ、大きな)があります1 / N N 1σ2=11/nn14n(1/2π)2=π2n1.57/n>1/n

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.