もし平均がとても敏感なら、そもそもなぜそれを使うのか?


84

中央値が外れ値に対して耐性があることは既知の事実です。その場合、最初に平均を使用するのはいつ、なぜですか?

おそらく考えられることの1つは、外れ値の存在を理解することです。つまり、中央値が平均から離れている場合、分布は歪んでおり、おそらく外れ値で何をするかを決定するためにデータを調べる必要があります。他の用途はありますか?


14
最初の質問について、簡単な補足説明:統計の平均は人口の最初の瞬間にすぎませんが、中央値はそうではありません。CLT、多数の法則などを使用しようとすると、再び有限モーメントの存在にリンクされます。例としてコーシー分布を取りますが、中央値は存在しますが、平均値はそうではありません;)
ドミトリーチェロフ

2
@Dmitrijこれは深く洞察に満ちた答えです。返信で詳しく説明してみませんか?
whuber

あなたがその意味を使用しなかった場合、あなたはその感情を傷つけるだろうか?(ごめん、抵抗できませんでした。)
ダニエルRヒックス

3
@ダニエルRヒックス:それはそれはかなり意味があるのですか?(申し訳ありませんが、抵抗することもできませんでした)。
ムハンマドアルカウリ

3
この質問は、「なぜ堅牢なアルゴリズムを常に使用するとは限らないのですか」という通常の質問よりもはるかに興味深いものです。質問ですが、「ロバスト==魔法」という同じ根本的な考えがあり、ロバストな方法を使用した場合、データを調べたり、理解したり、さまざまな種類の精度の問題を心配したりする必要はありません。 「堅牢」。それでも、+ 1。
ウェイン

回答:


113

ある意味では、平均はデータに敏感であるために使用されます。分布が対称的であり、裾がほぼ正規分布に近い場合、平均は中心傾向の非常に効率的な要約です。中央値は、連続分布に対してロバストで明確に定義されていますが、わずかは、データがたまたま正規分布から得られた場合の平均と同じくらい効率的です。中央値がこのように比較的非効率であるため、私たちが使用する以上に使用することができません。相対的な非効率性は、サンプルサイズが大きくなるにつれて、わずかな絶対的な非効率性に変換されるため、nが大きい場合は、中央値の使用について無罪になります。2πn

変動の尺度(拡散、分散)には、標準偏差(Giniの平均差)と同じくらい効率的な0.98の非常に堅牢な推定量があることに注意してください。これは、2つの観測値の平均絶対差です。[サンプルの標準偏差に定数を掛けて、Giniの平均差によって推定される量と同じ量を推定する必要があります。]中心傾向の効率的な尺度は、Hodges-Lehmann推定量、つまりすべてのペアワイズ平均の中央値です。解釈がより単純であれば、より多く使用します。


13
中心傾向のHodges-Lehmann推定量に言及するための+1。多くの点で、平均値と中央値の中間です。大規模なサンプルで計算するのが簡単だった場合にのみ、ロケーションの尺度として平均または中央値よりも人気があると思います。
ttnphns

ところで、@ Frank、Hodges-Lehmannセンターがどの理論サンプリング分布に従うか知っていますか?私はしません-興味を持ちます。
ttnphns

16
コメントありがとう。Rの1ライナーは、N = 5000まで効率的に計算できますw <- outer(x, x, '+'); median(w[row(w) >= col(w)])/2。簡単なC、Fortran、またはRatforプログラムをRから呼び出して、高速化することができます。RのICSNPパッケージには、そのhl.loc機能を備えたかなり効率的な実装があります。N = 5000の場合、上記のコードよりも2.66倍高速でした(合計時間1.5秒)。信頼区間を効率的に取得するのもいいでしょう。
フランクハレル

SnQnσ

1
モデルの比較が問題にならないように分散測定について話している(そして「Giniのインデックス」と混同しないでください)。ジニの平均差は絶対的な尺度です。他の方法よりも解釈が簡単です。分布ごとに異なる定数を計算する必要があるという事実から、定数を使用したくないことがわかります。
フランクハレル

36

すでに多くの素晴らしい答えがありますが、一歩後退してもう少し基本的なことをするのは、あなたが得る答えはあなたが尋ねる質問に依存するからだと思います。平均と中央値は異なる質問に答えます-時には一方が適切であり、時には他方が適切です。

外れ値がある場合や、分布が歪んでいる場合など、中央値を使用する必要があると言うのは簡単です。しかし、常にそうとは限りません。収入を取る-ほぼ常に中央値で報告され、通常はそうです。しかし、コミュニティ全体の消費力を見ている場合、それは正しくないかもしれません。また、場合によっては、モードでさえ最適かもしれません(特にデータがグループ化されている場合)。


8
+1は、他の誰も対処していないように見える明らかな点である。それらは異なる概念であり、異なる質問に答える。また、多くの場合、ディストリビューション全体を1つのサマリー番号にまとめることで多くの損失が発生するため、両方ともお粗末な仕事をすることがあります。
マイケル

25

値がガベージの場合、「outliar」と呼ばれ、分析がそれに堅牢であることを求めます(そして中央値を優先します)。同じ値が魅力的である場合、それを「極端な」と呼び、分析がそれに敏感であることを望みます(そして平均を好む)。弁証法...

平均は、分布のどこでシフトが発生するかに関係なく、値のシフトに等しく反応します。たとえば、任意の値を2 1 2 3 4 5増やすことができます-平均の増加は同じになります。中央値の反応は「一貫性がありません」:データポイント4または5に2を追加すると、中央値は増加しません。ただし、ポイント2に2を加えると、シフトが中央値を超え、中央値が劇的に変化します(平均値よりも大幅に変化します)。

平均は常に正確に配置されます。中央値はそうではありません。たとえば、セットでは2〜3の1 2 3 4 任意の値を中央値と呼ぶことができます。したがって、中央値に基づいた分析は、常に一意のソリューションではありません。

平均は、最小二乗偏差の軌跡です。線形代数に基づく多くの最適化タスク(有名なOLS回帰を含む)は、この2乗誤差を最小化するため、平均の概念を暗示します。絶対偏差の最小合計の軌跡の中央値。このようなエラーを最小化する最適化手法は非線形であり、より複雑で/あまり知られていません。


2
+1外れ値の検出は完全に主観的なプロセスであるため、最初の段落が誤解される可能性があるという懸念が少しあります。しかし、あなたがそれを意味することを意味するとは思わない。
whuber

8
+1 | 最初の文は、外れ値の検出の適用は完全に主観的であるため、そのまま維持することに投票すると思います。
ジョン

2
私はoutliar検出が主観的哲学的あるいは道徳的な根と厳しい手続きであることを意味
ttnphns

3
@ttnphns、「外れ値」の代わりに「外れ値」というスペルは意図的ですか、そうではありませんか?
mpiktas

1
意図しないタイプミス。
ttnphns

16

この質問には多くの答えがあります。おそらく他の場所では見られないものがありますので、このトピックに関係があると思うので、ここに含めます。人々はしばしば、中央値が外れ値に関して堅牢な尺度であると考えられているため、ほとんどすべてに対して堅牢であると信じています。実際、歪んだ分布にバイアスをかけることも堅牢であると考えられています。中央値のこれら2つの堅牢な特性は、しばしば一緒に教えられます。基礎となる歪んだ分布は、外れ値があるように見える小さなサンプルを生成する傾向があり、そのような状況では中央値を使用するという従来の知識があることに気付くかもしれません。

#function to generate random values from a skewed distribution
rexg <- function (n, m, sig, tau) {
    rexp(n, rate = 1/tau) + rnorm(n, mean = m, sd = sig)
    }

(これが歪んでいることと基本的な形状のデモンストレーションのみ)

hist(rexg(1e4, 0, 1, 1))

プロット

次に、この分布からさまざまなサンプルサイズをサンプリングし、中央値と平均値を計算して、それらの違いが何であるかを確認するとどうなるかを見てみましょう。

#generate values with various n's
N <- 1e4
ns <- 2:30
y <- sapply(ns, function(x) mean(apply(matrix(rexg(x*N, 0, 1, 1), ncol = N), 2, median)))
plot(ns,y, type = 'l', ylim = c(0.85, 1.03), col = 'red') 
y <- sapply(ns, function(x) mean(colMeans(matrix(rexg(x*N, 0, 1, 1), ncol = N))))
lines(ns,y)

プロット2

上記のプロットからわかるように、中央値(赤)は、平均よりもnに対してはるかに敏感です。これは、特に分布が歪んでいる可能性がある場合に、nsの低い中央値を使用することに関する従来の常識に反します。また、平均値は既知の値であるのに対し、中央値は他のプロパティ(nである場合)に敏感であるという点を補強します。

この分析は、Miller、J.(1988)に似ています。反応時間の中央値に関する警告。Journal of Experimental Psychology:Human Perception and Performance14(3):539–543。

リビジョン

スキューの問題について考えると、中央値への影響は、小さなサンプルでは中央値が分布の裾にある可能性が高いためであると考えましたが、平均はほぼ常により近い値で重み付けされますモード。したがって、おそらく、外れ値の確率でサンプリングするだけの場合、同じ結果が発生する可能性があります。

そこで、異常値が発生し、実験者が異常値を排除しようとする状況について考えました。

データのサンプリングごとに1つなど、外れ値が一貫して発生した場合、中央値はこの外れ値の影響と中央値の使用に関する従来のストーリーに対して堅牢です。

しかし、それは通常物事がどのように進むかではありません。

実験のごく少数のセルで異常値を見つけ、この場合は平均の代わりに中央値を使用することを決定するかもしれません。繰り返しますが、中央値はより堅牢ですが、外れ値が非常に少ないため、実際の影響は比較的小さくなります。これは間違いなく上記の場合よりも一般的なケースですが、中央値を使用した場合の影響はおそらく非常に小さいため、それほど重要ではありません。

おそらく、より一般的な外れ値はデータのランダムなコンポーネントである可能性があります。たとえば、母集団の真の平均と標準偏差は約0かもしれませんが、平均が3である外れ値の母集団からサンプリングする時間の割合があります。サイズ。

#generate n samples N times with an outp probability of an outlier.
rout <- function (n, N, outp) {
    outPos <- sample(0:1,n*N, replace = TRUE, prob = c(1-outp,outp))
    numOutliers <- sum(outPos)
    y <- matrix( rnorm(N*n), ncol = N )
    y[which(outPos==1)] <- rnorm(numOutliers, 4)
    return(y)
    }

outp <- 0.1
N <- 1e4
ns <- 3:30
yMed <- sapply(ns, function(x) mean(apply(rout(x,N,outp), 2, median)))
var(yMed)
yM <- sapply(ns, function(x) mean(colMeans(rout(x,N,outp))))
var(yM)
plot(ns,yMed, type = 'l', ylim = range(c(yMed,yM)), ylab = 'Y', xlab = 'n', col = 'red') 
lines(ns,yM)

結果

中央値は赤で、平均は黒です。これは、歪んだ分布の発見と同様の発見です。

外れ値の影響を回避するために中央値を使用する比較的実用的な例では、中央値を使用した場合よりも中央値を使用した場合の方が推定値に大きく影響する状況が考えられます。


良い例ですが、それは本当にディストリビューションに依存します。正規分布または均一分布を使用する場合、グラフは大きく異なり、2本の線が重ねられます。違いを生むのは指数分布です。
ニコ

1
-1この回答は、「感度」と「バイアス」を混同します。
whuber

4
ずっといい; downvoteを削除しました。しかし、私は新しい説明に興味をそそられています:実際には「[中央値]は歪んだ分布のバイアスに対しても堅牢であると考えられている」という主張をするいくつかのソース(テキスト、論文、またはWebサイト)を指摘できますか?それはどういう意味ですか?私は以前にそのような主張に出くわしたことがなく、それが本当に何を言っているのか分かりません。
whuber

3
心理学研究での反応時間(歪んでいることが知られている)を扱うためのより多くの民俗知識です。私は、心理学における民俗の知恵に反論する論文への言及を入れました(以前に言及しなかったのは気分が悪い)。
ジョン

3
ところで、ミラー(1988年)の論文にもかかわらず、人々は条件が異なるサンプル数を持ち、通常は低い方がかなり小さい確率操作の研究で反応時間の中央値を使用しています。
ジョン

11
  • 平均から、すべてのアイテムの合計を計算するのは簡単です。たとえば、母集団の平均収入と母集団のサイズがわかっている場合、母集団全体の総収入をすぐに計算できます。

  • 平均はO(n)時間の複雑さで計算するのが簡単です。線形時間で中央値を計算することは可能ですが、さらに注意が必要です。並べ替えを必要とする明らかな解決策は、O(n log n)時間の複雑さ()が複雑です。

そして、平均が中央値よりも人気がある別の理由があると推測します。

  • 平均は学校でより多くの人に教えられ、おそらく中央値を教える前に教えられます

時間の複雑さの点については、値の保存方法によって異なります。値が既にソートされている場合、O(1)最悪の場合の時間の複雑さの中央値を計算することは確かに可能です。
ルイスキューバル

私は同意します-合計などの計算におけるその適用性は、平均の主な利点の1つです。目標が何かを記述することである場合、私はしばしば中央値を好みますが、それが別の計算への入力である場合、平均をしばしば使用します。
ジョナサン

5

「中央値が外れ値に対して耐性があることは知られています。その場合、そもそも平均値を使用するのはいつですか?」

異常値がないことがわかっている場合、たとえばデータ生成プロセスを知っている場合(数学統計など)。

これら2つの量(平均と中央値)は実際には同じものを測定しておらず、ほとんどのユーザーは後者に実際に関心を持たなければならないときに前者に尋ねるという些細なことを指摘する必要があります(この点は、 t検定よりも容易に解釈される中央値ベースのウィルコクソン検定)。

その後、何らかの偶然の理由で、何らかの規制が彼の意味の使用を課す場合があります。


2

外れ値の存在を懸念する場合は、データを確認する簡単な方法がいくつかあります。

データを生成するプロセスまたはデータを収集するプロセスのいずれかで何かが変化すると、ほとんどの場合、外れ値はデータに含まれます。すなわち、データは同質ではなくなります。データが均一でない場合、2つの別々のデータセットが混在している中心的な傾向を推定しようとしているので、平均も中央値もあまり意味がありません。

均質性を確保するための最良の方法は、データ生成および収集プロセスを調べて、すべてのデータが単一のプロセスセットからのものであることを確認することです。ここでは、少しの頭脳力に勝るものはありません。

二次チェックとして、いくつかの統計的テストの1つに切り替えることができます:カイ2乗、DixonのQ検定、Grubbの検定、または管理図/プロセス動作図(通常はXバーRまたはXmR)。私の経験では、データが収集されたとおりに注文できる場合、プロセスの動作チャートは外れ値テストよりも外れ値の検出に優れています。チャートのこの使用法は多少議論の余地があるかもしれませんが、シューハートの元の意図と完全に一致しており、ドナルド・ウィーラーによって明示的に提唱されている使用法だと思います。外れ値のテストを使用する場合でも、プロセスの動作チャートを使用する場合でも、検出された「外れ値」は単に潜在的なシグナルであることを忘れないでくださいさらに検討する必要がある不均一性。データポイントが外れ値である理由について説明がない場合、データポイントを除外することはほとんど意味がありません。

Rを使用している場合、外れ値パッケージは外れ値テストを提供し、プロセス動作チャートにはqcc、IQCCおよびqAnalystがあります。私はqccパッケージの使用と出力を個人的に好みます。


2

いつ平均が必要ですか?

財務の例:

  • 債券リターン:
    • 債券収益率の中央値は、一般に数パーセントポイントです。
    • 平均債券収益率は、デフォルト率とデフォルトの回復率に応じて、低い場合も高い場合もあります。中央値はこれをすべて無視します!
    • 投資家に「幸運なことに、今年のファンドは40%減少しています。なぜなら、ほぼ半分は債券が回復せずに破綻しましたが、債券の中央値は1%を返しました!」
  • ベンチャーキャピタルリターン:
    • 逆も同様です。VCまたはエンジェル投資の中央値は破産し、すべての利益は少数の勝者から得られます!(サイドノート/警告:ベンチャーキャピタルまたはプライベートエクイティのリターンの推定は非常に問題が多い...注意してください!)

多様化したポートフォリオを形成する際、投資対象と投資額を決定する際に、リターンの平均と共分散が最適化問題に大きく影響する可能性があります。


同意しましたが、これらの状況のいずれにおいても平均または中央値は焦点ではないようです。むしろ、合計が重要な量になる可能性があるということです。当然、これは、平均が中央値よりも優れた要約であることを意味します。しかし、債券収益率の中央値は馬鹿げた答えかもしれないが、だれかがそれを提案していますか?
ニックコックス

@NickCox 2つのコメント。(1)債券収益率の中央値がばかげていることがポイントです!これらの答えには素晴らしい理論がありますが、非常に単純な例で色を追加できると思いました。フランクの答えを引用すると、「データに敏感であるため平均が使用されます」とポートフォリオのリターンは、それを望むシンプルで理解しやすい状況を提供します。(2)「合計」を気にすることと「平均」を気にすることの区別は、かなり曖昧になります。「ヘッジファンドに投資すべきですか?」それに答えるために、「ヘッジファンドの平均リターンはいくらですか?」
マシューガン

1
(1)前述のとおり、同意します。私の質問は、中央値がこの目的のための教育または研究文献で真剣に言及されているかどうかだけです。(2)私の主張が曖昧だとは思わない。それは最初に何が起こるのかという単純な質問です。つまり、実際に主な関心事です。「ギャングが合計200年間投獄された」という見出しがあり、なぜ印刷されるのかは知っていますが、それでも要約するのは奇妙な方法です。逆に、一連の災害で200人が死亡するのは、それぞれが平均40人である5つの災害ではなく、プライマリです。(小さな)問題は、どの要約ステートメントが最も適しているかを選択することです。
ニックコックス

@NickCoxポイントを取得しました。私はあなたがあなた自身の投資の合計を気にすることに同意します。ただし、ポートフォリオを形成し、特定の証券のポートフォリオウェイトを決定する場合は、その証券のリターンの特性を考慮する必要があります。私はすべての地方債を購入するつもりはありません。合計を直接気にしませんが、地方債の平均収益率はどうですか?ポートフォリオにいくつか追加する場合のリスク/リターンの特性は何ですか?
マシューガン

同意した。それがここの領土です。
ニックコックス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.