なぜ平均値は中央値よりも異なるサンプルでより安定しているのですか


22

Andy FieldsによるRを使用した統計発見などのセクション1.7.2、および平均対中央値の長所を挙げながら:

...平均は異なるサンプルで安定する傾向があります。

これは中央値の多くの美徳を説明した後、例えば

...中央値は、分布の両端の極端なスコアに比較的影響を受けません...

中央値が極端なスコアの影響を比較的受けないことを考えると、サンプル全体でより安定していると思っていたでしょう。だから著者の主張に戸惑った。シミュレーションを実行したことを確認するために、1Mの乱数を生成し、100の数値を1000回サンプリングし、各サンプルの平均と中央値を計算してから、それらのサンプルの平均と中央値のsdを計算しました。

nums = rnorm(n = 10**6, mean = 0, sd = 1)
hist(nums)
length(nums)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) }
sd(means)
>> [1] 0.0984519
sd(medians)
>> [1] 0.1266079
p1 <- hist(means, col=rgb(0, 0, 1, 1/4))
p2 <- hist(medians, col=rgb(1, 0, 0, 1/4), add=T)

ご覧のとおり、平均は中央値よりも密に分布しています。

ここに画像の説明を入力してください

添付の画像では、赤いヒストグラムは中央値です-ご覧のとおり、背が低く、尾が太いので著者の主張を確認できます。

しかし、私はこれに驚いています!より安定した中央値は、サンプル間で最終的に大きく変化する傾向がありますか?逆説的なようです!どんな洞察もいただければ幸いです。


1
ええ、しかし、nums <-rt(n = 10 ** 6、1.1)からサンプリングして試してください。このt1.1分布は、正と負の間で必ずしもバランスが取れていない(多くの場合、バランスをとるために負の極値と同じ正の確率で)極値の束を与え。これは、中央値がシールドするものです。正規分布は、中央値よりも広く分布を広げるために特に極端な値を与えることはほとんどありません。ˉ Xx¯x¯
デイブ

10
著者の声明は一般的に真実ではありません。(これは驚きではありませんので、我々は、ここではこの著者の本でエラーに関連する多くの質問を受けています。)標準反例が中に見出される「安定分布」の平均は何があるが、任意の合理的な意味での「安定」(項)および中央値ははるかに安定しています。
whuber

1
「...平均は異なるサンプルで安定する傾向があります。」ナンセンスステートメントです。「安定性」は明確に定義されていません。(サンプル)平均は、ランダムでない量であるため、実際には単一のサンプルで非常に安定しています。データが「不安定」(非常に可変的?)の場合、平均も「不安定」です。
AdamO

1
この質問は、stats.stackexchange.com / questions / 7307で提供される詳細な分析によって回答される可能性が高く、同じ質問が特定の方法で尋ねられます(「安定」の意味が明確に定義されている場合)。
whuber

2
に置き換えrnormてみてくださいrcauchy
エリックタワーズ

回答:


3

中央値は、外れ値に対して最大限に堅牢ですが、ノイズの影響を非常に受けやすくなっています。各ポイントに少量のノイズを導入すると、ノイズがポイントの相対的な順序を変更しない程度に小さい限り、減衰なしの中央値に入ります。意味は逆です。ノイズは平均化されますが、1つの外れ値で平均を任意に変更できます。

テストでは主にノイズに対するロバスト性を測定しますが、中央値のパフォーマンスがより良いものを簡単に作成できます。外れ値とノイズの両方に対してロバストな推定器が必要な場合は、上位3分の1と下位3分の1を捨てて、残りを平均します。


このアルゴリズムには、「33%トリム平均」よりも具体的な名前がありますか?
デビッドケーリー

25

@whuberと他の人が言ったように、このステートメントは一般的に真実ではありません。そして、もっと直感的になりたいと思っているなら(私はこの辺の数学オタクに追いつくことはできません)、平均と中央値が安定しているかどうかを見るかもしれません。これらの例では、説明の一貫性とシンプルさを保つために、奇数個のポイントを想定しています。

  1. 数直線上に点が広がっていると想像してください。ここで、真ん中より上のすべてのポイントを取得し、それらを値の10倍まで移動するとします。中央値は変化せず、平均値は大幅に変化しました。したがって、中央値はより安定しているようです。

  2. ここで、これらのポイントがかなり広がっていると想像してください。中心点を上下に移動します。1単位の移動は中央値を1つずつ変更しますが、平均値はほとんど移動しません。中央値は現在、安定性が低く、単一点の小さな動きに敏感です。

  3. ここで、最高点を取得し、最高点から最低点までスムーズに移動することを想像してください。平均もスムーズに動きます。しかし、中央値は連続的に移動しません。高点が前の中央値より低くなるまでまったく移動せず、次の点を下回るまで点を追跡し始め、中央値はその点に固定され、再び動きます。ポイントを下に動かし続けても動かないでください。[コメントごとに編集]

そのため、ポイントのさまざまな変換により、平均値または中央値のいずれかが、ある意味で滑らかさまたは安定性を失います。ここでの数学のヘビーヒッターは、サンプリングできる分布を示しています。これは、実験とより一致していますが、この直感が役立つことを願っています。


1
項目3について:中央値もスムーズに移動しませんか?ポイントの初期セットはであるとしましょう[1, 3, 5, 7, 9]。最初は中央値は5です。これは、5番目のポイント(最初は9)が下5に下がるまで中央値のままであり、そのポイントで中央値は減少するにつれて5番目のポイントにスムーズに追従し、ヒットするまで3中央値はに留まり3ます。したがって、中央値を定義するポイントは「ジャンプ」(3番目のポイントから5番目のポイント、2番目のポイントへ)ですが、中央の実際のにはジャンプ/不連続はありません。
スコットM

@ScottMあなたは正しいようです。なぜジャンプするのかわからない。機会があれば言い替えます。
ウェイン

18

nμσ2<fmf~f~(z)=σf(μ+σz)zR。サンプル平均とサンプル中央値の漸近分散は、それぞれ次のように与えられます。

V(X¯n)=σ2nV(X~n)σ2n14f~(mμσ)2.

したがって、次のものがあります。

V(X¯n)V(X~n)4f~(mμσ)2.

n

V(X¯n)<V(X~n)ff~(mμσ)<12.

nf=1/2π=0.3989423<1/2


驚くばかり!ありがとう。
Alok Lal

4

コメント:平均値と中央値のSDの結果が逆になる分布を使用して、シミュレーションをエコーバックするだけです。

具体的にnumsは、ラプラス分布(「二重指数」とも呼ばれます)からのものであり、同じレート(ここではデフォルトレート1)の2つの指数分布の差としてシミュレートできます。[おそらく、ラプラス分布に関するウィキペディアを参照してください。]

set.seed(2019)
nums = rexp(10^6) - rexp(10^6)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10^3) { b = sample(x=nums, 10^2); 
  medians[i]= median(b); means[i]=mean(b) }
sd(means)
[1] 0.1442126
sd(medians)
[1] 0.1095946   # <-- smaller

hist(nums, prob=T, br=70, ylim=c(0,.5),  col="skyblue2")
 curve(.5*exp(-abs(x)), add=T, col="red")

ここに画像の説明を入力してください

注: @whuberのリンクで明示的に言及されている別の簡単な可能性は、Cauchyです。これは、1自由度のスチューデントのt分布としてシミュレートできますrt(10^6, 1)。ただし、その裾は非常に重いため、素敵なヒストグラムを作成するのは問題です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.