非常に歪んだ1次元確率変数があります。この分布を正規化するために、平均ではなく中央値を使用します。私の質問はこれです:平均の代わりに式の中央値を使用して分布の分散を計算できますか?
つまり、交換できますか
と
これの背後にある私の推論は、分散は分布の中心的な傾向に対する広がりの尺度であるため、それは問題ではないはずですが、このロジックを検証しようと考えています。
非常に歪んだ1次元確率変数があります。この分布を正規化するために、平均ではなく中央値を使用します。私の質問はこれです:平均の代わりに式の中央値を使用して分布の分散を計算できますか?
つまり、交換できますか
と
これの背後にある私の推論は、分散は分布の中心的な傾向に対する広がりの尺度であるため、それは問題ではないはずですが、このロジックを検証しようと考えています。
回答:
平均は二乗誤差(またはL2ノルム、ここまたはここを参照)を最小化するため、平均からの距離を測定するための分散の自然な選択は二乗誤差を使用することです(二乗誤差の理由についてはこちらを参照)。一方、中央値は絶対誤差(L1ノルム)を最小化します。つまり、これはデータの「中間」にある値であるため、中央値からの絶対距離(いわゆる中央絶対偏差)は、中央値周辺の変動の程度のより良い測定。この関係の詳細については、このスレッドをご覧ください。
簡単に言うと、分散はデータの中心点をどのように定義するかについてMADとは異なり、これはその周囲のデータポイントの変動を測定する方法に影響します。値を二乗すると、外れ値が中心点(平均)に与える影響が大きくなりますが、中央値の場合、すべての点が同じ影響を与えるため、絶対距離の方が適切と思われます。
これは、簡単なシミュレーションでも表示できます。平均値と中央値からの距離の2乗の値を比較すると、総平方距離はほとんどの場合、中央値からの平均よりも平均から小さくなります。一方、総絶対距離は中央値から、平均値よりも小さくなります。シミュレーションを実行するためのRコードを以下に示します。
sqtest <- function(x) sum((x-mean(x))^2) < sum((x-median(x))^2)
abstest <- function(x) sum(abs(x-mean(x))) > sum(abs(x-median(x)))
mean(replicate(1000, sqtest(rnorm(1000))))
mean(replicate(1000, abstest(rnorm(1000))))
mean(replicate(1000, sqtest(rexp(1000))))
mean(replicate(1000, abstest(rexp(1000))))
mean(replicate(1000, sqtest(runif(1000))))
mean(replicate(1000, abstest(runif(1000))))
そのような「分散」を推定する際に平均ではなく中央値を使用する場合、これは、伝統的に行われているように平均を使用する場合よりも高い推定につながります。