左に歪んだデータでは、平均と中央値の関係は何ですか?


12

中央値平均だと思います。

これは事実ですか?


2
どのオープンMOOCコースですか?コース資料は、答えがどうあるべきかを示唆していますか?
グレン_b-モニカの復活14


1
おかげで、少なくともそれはいくつかのコンテキストですが、そこに残っているのはこの問題にあまり光を当てない週刊の読書です。コースでこのトピックについて何と言わなければならなかったのだろうか。
グレン_b-モニカーを復活14

回答:


16

それは自明ではない質問です(質問をしている人々が考えるように見えるほど簡単ではありません)。

難易度は最終的に、「スキューネス」が何を意味するのか実際にはわからないという事実によって引き起こされます。自明ではない場合の「ロケーション」と「スプレッド」が意味することを突き止めるのが難しいことを考えると(例えば、ロケーションについて話すとき、平均は必ずしも私たちが意味するものとは限りません)、より微妙なことは大きな驚きではないはずです歪度のような概念は、少なくとも滑りやすいです。したがって、これは私たちが意味するもののさまざまな代数的定義を試みるように導き、それらは常に互いに一致するとは限りません。

1)した場合、あなたがすることによって歪度測定する第二ピアソン歪度係数は、平均()少ない中央よりになります(μ -つまりこの場合は、あなたが後方にそれを持っています)。μμ

(人口)は、第2のピアソン歪度があるおよび負になります( "スキュー左")とき μ < μ

3μμσ
μ<μ

これらの統計のサンプルバージョンも同様に機能します。

この場合に平均値と中央値の間に必要な関係がある理由は、それが歪度の尺度の定義方法だからです。

次に、左斜めの密度を示します(2番目のピアソン測定値と、下の(2)のより一般的な測定値の両方による)。

ここに画像の説明を入力してください

中央値は下マージンに緑色でマークされ、平均値は赤でマークされます。

ですから、彼らがあなたに与え欲しい答えは、平均が中央値より小さいということです。通常、名前を付ける傾向がある種類の分布の場合です。

(しかし、読み進めて、それが実際に一般的なステートメントとして正しくない理由を見てください。)


2)より一般的な標準化された3番目のモーメントで測定する場合、平均値が中央値よりも小さくなることがよくありますが、常にではありません。

つまり、反対の場合、または一方の歪度がゼロで、もう一方が非ゼロの例を作成することができます。

つまり、平均値、中央値、およびモーメントスキューの位置の間に必要な関係はありません。

たとえば、次のサンプルを考えます(同じ例を離散確率分布として構築できます)。

  2.7 15.0 15.0 15.0 30.0 30.0

mean: 17.95
median: 15

それでも、平均からの偏差の立方体の合計が負であるため、(フィッシャー、第3モーメント)歪度係数は負です(つまり、そのライトによって、左スキューデータがあります)。

その場合、左スキューですが、平均値>中央値です。

(一方、上記の例の2.7を3に変更すると、モーメントスキューがゼロであるが、平均が中央値を超える例があります。3.3にすると、モーメントスキューは正になります。 、および平均が中央値を超える-つまり、最終的に「予想」方向になります。

上記の定義の代わりに最初のピアソン歪度を使用する場合、この場合と同様の問題があります-歪度の方向は、一般的に平均と中央値の間の関係を固定しません。


編集:コメントの質問への回答-平均と中央値は等しいが、モーメントの歪みは負の例 次のデータを考慮します(以前と同様に、離散母集団の例としてカウントされます。ダイの面に数字を書くことを検討してください)。

 1  5  6  6  8 10

平均と中央値は両方とも6ですが、平均からの偏差の立方体の合計は負であるため、3次モーメントの歪度は負です。


1
@Peter返信が遅くなって申し訳ありませんが、私はそのような例を作成するのに忙しくて、あなたの質問を見ませんでした。
グレン_b-モニカの復帰14

2
私は多くの教科書の定義を見てきましたが、誰もこれに言及していません。涼しい。
ピーターフロム-モニカの復職

6
@Peter残念ながら、多くの初歩的な教科書は、実際の調査を実際に行うことなく、他の教科書から誤った情報を単に繰り返しているため、基本的な誤解が広まっています。反例は、ご覧のとおり、比較的簡単に作成できます(必要に応じて手作業で作成します)。KendallとStuart(統計の高度な理論、第1巻 -タイトルを先送りにしないでください。かなり読みやすいです)、少なくとも第3版と第4版には、良い情報があります。最新のエディションはStuartとOrdによるものです。私は実際にこの問題について何度もCVに投稿しました。
Glen_b-モニカを復活させます14

4
(5k)0.8k0.25k(5k)0.2k0.85k=

1
@Nickはい、整数平均を持つ二項式は素晴らしい例です。
Glen_b-モニカを復活させる14

5

いいえ。左に歪んだデータは、左側に長いテール(下端)があるため、通常、平均は中央値よりも小さくなります。(ただし、例外については@Glen_bの回答を参照してください)。何気なく、左に「見える」データは中央値よりも小さいと思います。

右スキューデータがより一般的です。たとえば、収入。ここで、平均は中央値よりも大きくなっています。

Rコード

set.seed(123)  #set random seed
normdata <- rnorm(1000) #Normal data, skew = 0
extleft <- c(rep(-10, 5), rep(-20, 5)) #Some data to make skew left
alldata <- c(normdata,extleft)

library(moments)
skewness(alldata) #-6.77
mean(alldata) #-0.13
median(alldata) #-0.001

平均値は中央値に等しくなることはありますか?
クンジャンクシェトリ14年

unj2 3番目のモーメントの歪度は負ですが、mean = medianである例を回答に追加しました。
Glen_b-モニカを復活させる14
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.