平均および中央値のプロパティ


18

誰かが2つのステートメント(a)と(b)をリンクする数学的論理を明確に説明してもらえますか?値のセット(分布)があります。さて、

a)中央値はすべての値に依存するわけではありません[1つまたは2つの中間値に依存するだけです]。b)中央値は、そこからの絶対偏差の最小値の軌跡です。

同様に、対照的に、

a)(算術)平均はすべての値に依存します。b)平均は、それからの最小二乗偏差の軌跡です。

私の把握はこれまでのところ直感的です。


1
同じ質問の古いバージョンを確認する価値があります:stats.stackexchange.com/questions/2547/…そして、ロバスト統計の説明:en.wikipedia.org/wiki/Robust_statistics
bill_080

したがって、最初のペアを求めているのは、中間ランク値として定義されている中央値(とにかく奇数の値の場合、最も単純な場合から開始する)が、合計を最小化する値でもあることの証明です絶対偏差の?できれば、いくつかの直感的な洞察を与える証拠ですか?私は自分自身の証拠を知らないので、それは良い質問のようです、そして、私も答えを知りたいです。
ワンストップ

あなたは私を正しく感じています。(a)と(b)は現在、私の統計では、両方の統計について別々のアスペクト/プロパティです。しかし、直観は2つの側面が結びついていることを示唆しています。私は知りたい- それらがどのように結びついているの、それをすべて深く理解するために。
ttnphns

回答:


19

これは2つの質問です。1つは平均と中央値が損失関数を最小化する方法、もう1つはこれらの推定値のデータに対する感度に関する質問です。後で説明するように、2つの質問はつながっています。

損失の最小化

数値のバッチの中心の要約(または推定値)は、要約値を変更し、バッチ内の各数値がその値に復元力を及ぼすと想像することで作成できます。フォースが値を数値から押し出さない場合、おそらく、フォースのバランスがとれている任意のポイントがバッチの「中心」になります。

二次()損失L2

たとえば、要約と各数値の間に古典的なばね(フックの法則に従う)を付けると、力は各ばねまでの距離に比例します。スプリングは、このように要約を引き出し、最終的にはエネルギーが最小限の独自の安定した場所に落ち着きます。

発生したばかりの小さな手の動きに注意を喚起したいと思います。エネルギーは距離の2乗の合計に比例します。ニュートン力学は、力とはエネルギーの変化率であることを教えてくれます。 平衡を達成すること、つまりエネルギーを最小化することは、力のバランスをとることになります。エネルギーの正味の変化率はゼロです。

これを「サマリー」または「二乗損失サマリー」と呼びましょう。L2

絶対()損失L1

値とデータ間の距離に関係なく、復元力のサイズ一定であると仮定すると、別の要約を作成できます。ただし、力自体は一定ではありません。常に各データポイントに向かって値をプルする必要があるためです。したがって、値がデータポイントよりも小さい場合、力は正に向けられますが、値がデータポイントよりも大きい場合、力は負に向けられます。これで、エネルギーは値とデータ間の距離に比例します。通常、エネルギーが一定で、正味の力がゼロである領域全体が存在します。この地域の任意の値は、「サマリー」または「絶対損失サマリー」と呼ばれる場合があります。L1

これらの物理的アナロジーは、2つの要約に関する有用な直観を提供します。たとえば、データポイントの1つを移動すると、サマリーはどうなりますか?ばねが取り付けられた場合、1つのデータポイントを移動すると、ばねが伸びたり緩んだりします。その結果、サマリーの有効性が変更されるため、それに応じて変更する必要があります。 しかし、L 1の場合、ほとんどの場合、データポイントの変更は要約に何もしません。これは、力が局所的に一定だからです。フォースを変更できる唯一の方法は、データポイントがサマリー全体を移動することです。L2L1

(実際、値に対する正味の力は、それよりも大きいポイントの数(それを上に引き上げる)-それよりも小さいポイントの数を差し引いて下に引くことによって与えられることは明らかです。したがって、概要は、データ値の数は、それが正確にそれより少ないデータ値の数に等しい超える任意の位置で生じなければなりません。)L1

損失の描写

力とエネルギーの両方が加算されるため、どちらの場合でも、正味のエネルギーをデータポイントからの個々の寄与に分解できます。サマリー値の関数としてエネルギーまたは力をグラフ化することにより、これは何が起こっているかの詳細な図を提供します。要約は、エネルギー(または統計用語の「損失」)が最小になる場所になります。同様に、それはバランスを強制する場所になります。損失の正味の変化がゼロになるデータの中心が発生します。

この図は、6つの値の小さなデータセットのエネルギーと力を示しています(各プロットの細い垂直線でマークされています)。黒い破線の曲線は、個々の値からの寄与を示す色付き曲線の合計です。x軸は、サマリーの可能な値を示します。

図1

算術平均は、それが左上プロットにおける黒放物線の頂点(底部)に位置する。乗損失が最小化される点です。それは常にユニークです。中央値は、絶対的な損失が最小化される点です。上記のように、データの途中で発生する必要があります。必ずしも一意ではありません。右上の破線の黒い曲線の下部に配置されます。(底は実際間の短い平坦部から成り- 0.17 ;この間隔内の任意の値が中央値です。)0.230.17

感度の分析

前に、データポイントが変化したときにサマリーに何が起こるかを説明しました。単一のデータポイントの変更に応じてサマリーがどのように変化するかをプロットすることは有益です。(これらのプロットは、本質的に経験的影響関数です。通常の定義とは異なり、これらの値がどれだけ変化するかではなく、実際の値を示します。)サマリーの値は、y -axesは、この要約がデータセットの中央の位置を推定していることを思い出させます。各データポイントの新しい(変更された)値は、x軸に表示されます。

図2

この図が提示バッチ内のデータ値のそれぞれの変化の結果(同じものは最初の図において分析)。各データ値に対して1つのプロットがあり、そのプロットでは、下の軸に沿って長い黒い目盛りで強調表示されます。(残りのデータ値は短い灰色の目盛りで表示されます。)青い曲線はL 2の要約(算術平均)をトレースし、赤い曲線はL 1をトレースします1.020.820.230.170.080.77L2L1要約-中央値。(多くの場合、中央値は値の範囲であるため、ここではその範囲の中央をプロットする規則に従います。)

通知:

  1. 平均の感度には制限がありません。これらの青い線は上下に無限に伸びています。中央値の感度には限界があります。赤い曲線には上限と下限があります。

  2. ただし、中央値が変化する場合は、平均値よりもはるかに急速に変化します。 各青い線の傾きは(一般的には、1 / NとデータセットのN個の赤線の傾斜部の傾きが全てであるのに対し、値)1 / 21/61/nn1/2

  3. 平均はすべてのデータポイントに敏感でありこの感度には境界がありません(最初の図の左下のプロットのすべての色付き線のゼロ以外の勾配が示すように)。中央値はすべてのデータポイントに対して敏感ですが、感度には限界があります(これが、最初の図の右下のプロットの色付き曲線がゼロ付近の狭い垂直範囲内にある理由です)。もちろん、これらは単に基本的な力(損失)の法則の視覚的な反復です:平均は2次、中央値は線形です。

  4. 中央値を変更できる間隔は、データポイントによって異なる場合があります。変化しないデータの中間値の2つによって常に制限されます。(これらの境界は、かすかな垂直の破線でマークされています。)

  5. 中央値の変化率が常にあるので、が異なる場合があり、したがってこれによって、データセットの近くの中間値との間のこのギャップの長さによって決定されます。1/2

一般的に最初のポイントのみが記載されていますが、4つのポイントすべてが重要です。特に、

  • 「中央値がすべての値に依存しない」ことは間違いです。 この図は反例を示しています。

  • それでも、個々の値を変更すると中央値を変更できるという意味で、中央値はすべての値「実質的に」依存しませんが、変更量はデータセットの中間値間のギャップによって制限されます。特に、変化の量には限界あります。中央値は「耐性のある」要約であると言います。

  • 平均が耐性ではない、そしていつでも変更される任意のデータ値が変更され、変化率が比較的小さいです。データセットが大きいほど、変化率は小さくなります。同様に、大きなデータセットの平均値に重大な変化をもたらすためには、少なくとも1つの値に比較的大きな変動が生じている必要があります。これは、平均の非抵抗性は、(a)小さいデータセット、または(b)1つ以上のデータがバッチの中央から極端に離れた値を持つ可能性があるデータセットにのみ関係することを示唆しています。

これらの発言-数字が明らかになることを願っています-は、損失関数推定量の感度(または抵抗)の間の深い関係を明らかにします。 これについて詳しくは、M-estimatorsに関するWikipediaの記事の1つから始めて、好きな限りそれらのアイデアを追求してください。


コード

このRコードは図を生成し、同じ方法で他のデータセットを調査するために簡単に変更できyます。ランダムに作成されたベクトルを数字のベクトルで置き換えるだけです。

#
# Create a small dataset.
#
set.seed(17)
y <- sort(rnorm(6)) # Some data
#
# Study how a statistic varies when the first element of a dataset
# is modified.
#
statistic.vary <- function(t, x, statistic) {
  sapply(t, function(e) statistic(c(e, x[-1])))
}
#
# Prepare for plotting.
#
darken <- function(c, x=0.8) {
  apply(col2rgb(c)/255 * x, 2, function(s)  rgb(s[1], s[2], s[3]))
}
colors <- darken(c("Blue", "Red"))
statistics <- c(mean, median); names(statistics) <- c("mean", "median")
x.limits <- range(y) + c(-1, 1)
y.limits <- range(sapply(statistics, 
                         function(f) statistic.vary(x.limits + c(-1,1), c(0,y), f)))
#
# Make the plots.
#
par(mfrow=c(2,3))
for (i in 1:length(y)) {
  #
  # Create a standard, consistent plot region.
  #
  plot(x.limits, y.limits, type="n", 
       xlab=paste("Value of y[", i, "]", sep=""), ylab="Estimate",
       main=paste("Sensitivity to y[", i, "]", sep=""))
  #legend("topleft", legend=names(statistics), col=colors, lwd=1)
  #
  # Mark the limits of the possible medians.
  #
  n <- length(y)/2
  bars <- sort(y[-1])[ceiling(n-1):floor(n+1)]
  abline(v=range(bars), lty=2, col="Gray")
  rug(y, col="Gray", ticksize=0.05);
  #
  # Show which value is being varied.
  #
  rug(y[1], col="Black", ticksize=0.075, lwd=2)
  #
  # Plot the statistics as the value is varied between x.limits.
  #
  invisible(mapply(function(f,c) 
    curve(statistic.vary(x, y, f), col=c, lwd=2, add=TRUE, n=501),
    statistics, colors))
  y <- c(y[-1], y[1])    # Move the next data value to the front
}
#------------------------------------------------------------------------------#
#
# Study loss functions.
#
loss <- function(x, y, f) sapply(x, function(t) sum(f(y-t)))
square <- function(t) t^2
square.d <- function(t) 2*t
abs.d <- sign
losses <- c(square, abs, square.d, abs.d)
names(losses) <- c("Squared Loss", "Absolute Loss",
                   "Change in Squared Loss", "Change in Absolute Loss")
loss.types <- c(rep("Loss (energy)", 2), rep("Change in loss (force)", 2))
#
# Prepare for plotting.
#
colors <- darken(rainbow(length(y)))
x.limits <- range(y) + c(-1, 1)/2
#
# Make the plots.
#
par(mfrow=c(2,2))
for (j in 1:length(losses)) {
  f <- losses[[j]]
  y.range <- range(c(0, 1.1*loss(y, y, f)))
  #
  # Plot the loss (or its rate of change).
  #
  curve(loss(x, y, f), from=min(x.limits), to=max(x.limits), 
        n=1001, lty=3,
        ylim=y.range, xlab="Value", ylab=loss.types[j],
        main=names(losses)[j])
  #
  # Draw the x-axis if needed.
  #
  if (sign(prod(y.range))==-1) abline(h=0, col="Gray")
  #
  # Faintly mark the data values.
  #
  abline(v=y, col="#00000010")
  #
  # Plot contributions to the loss (or its rate of change).
  #
  for (i in 1:length(y)) {
    curve(loss(x, y[i], f), add=TRUE, lty=1, col=colors[i], n=1001)
  }
  rug(y, side=3)
}

3
質に加えて、答えの骨の折れる、ゆったりとしたスタイルのために、私は賞金を提供しています。
ttnphns 14

ありがとうございました!この投稿を高く評価しています。
whuber

11

バツ1バツ2バツnnyfyyバツfy=|バツ1y|+|バツ2y|++|バツny|yfylバツyr=nlyyyfy

の量を追加するとします yyバツy|バツy|yy|バツy|yyyfylyry=lryfyバツyyfylr=0バツyyバツ

fyfy=バツ1y2++バツny2fyyバツy

fy


1
バツ

エレガントな説明をありがとう。しかし、私にはそう聞こえます:「小さな変化が関数Sum | x_i-y |を変えない数値yは、各x_iに依存せず、中央値と呼ばれます」。これは、偶数n個のデータの中央値に関する興味深いメモです。しかし、私はこれを証明するよう求めていました:「関数Sum | x_i-y |を最小化するその数値yは、各x_iに依存せず、中央値と呼ばれます」。同様に、「関数Sum(x_i-y)^ 2を最小化するその数値yは、各x_iに等しく依存し、平均と呼ばれます」。
ttnphns

1
「中央値と呼ばれる」部分をどのように証明するのですか?それはクレイジーです。
shabbychef

それは原因のcauseです。この部分は証明するものではありません。理解してほしいと思います。
ttnphns

1
絶対偏差の合計ではなく、絶対偏差の中央値に対して同様の結果がありますか?中央値からの絶対偏差の中央値も、分散の非常に興味深い尺度であるためです。
サムテベスト

3
  • バツn2バツn
  • aR

=1n|バツmedan|=1n|バツa|

そして

=1nバツmean2=1nバツa2


まあ、基本的な数学教育を欠く経験豊富な統計学者として、私はまだ平均と中央値の違いと応用について多くを知っています。ここで必要なのは、私にとっては(a)(b)から(b)(a)から(論理的または数学的に)描画する人です。私は(a)(b)自分と合理的に調和できないと感じています。マルコ、あなたの記法を理解するのは非常に難しいと思う。あなたの式が私が必要とする控除である場合、私のためにあまり技術的ではないアイデアを「噛んで」ください。
ttnphns

PSあなたの2つの不等式が最終的に私の画面に正しく表示された限り、私はそれが私の(b)声明に過ぎないことがわかります。あなたは、「それを示すことができる...」と書きます。見せてください プロの数学者ではないデータアナリストにとってわかりやすい用語で、数学的な証明が必要です。
ttnphns

2
@ttnphns:直感的ではなく数学的な答えを求めるあなたの要求は、人々が提供したものよりも技術的なものではないというあなたの要求と両立しないようです。
rolando2

状況を2点または3点に単純化して、上記の二重和の非厳密な不等式の中央値が一意の値を持っているかどうかを確認できますか?2つのポイントを使用すると、2の間の任意のポイントで満足するように見えます。
DWin11年

2

ちょっと読んだ後のちょっとした貢献です。おそらく尋ねた人には少し遅れましたが、誰か他の人にとっては価値があるかもしれません。

平均的な場合:

問題を検討する argmnバツ=1nyバツ

導入する fバツ==1nyバツ2

fバツ=02=1nyバツ=0

fバツ=0=1ny==1nバツ

fバツ=0バツ==1nn

関数が凸であるため、これは最小です

中央値の場合

問題を考えるargmnバツ=1n|yバツ|

f xを導入fバツ==1n|yバツ|

fバツ=0=1nsgnyバツ=0

(ここでxの符号です:s g n x = 1 ifsgnバツsgnバツ=1バツ>0sgnバツ=1バツ<0

fバツ=0{y/y>バツ}{y/y<バツ}=0

は空間の基数であるため、この離散的なケースでは、その中の要素の数)

fバツ=0バツ

関数も凸であるため、これもまた最小値です。


ありがとう。それは私や他の人に役立つかもしれません。式の主要な部分に、式を理解するのにあまり流formulaでない人のために、言葉でコメントを追加できますか。特に、あなたの最後の1行-それは何を意味し、何#ですか?
ttnphns 14

今は明らかですか?あまり一般的ではない2つの関数を定義しました
アンソニーマーティン
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.