高度に歪んだ変数を要約するための平均


11

私は高度に歪んだデータに取り組んでいるので、中心的な傾向を要約するために平均の代わりに中央値を使用しています。分散の測定値が欲しい中心傾向を要約するために、平均標準偏差±または中央値四分位数±を報告する人がよく見られますが、中央中央値絶対分散(MAD)± を報告しても問題ありませんか?このアプローチには潜在的な問題がありますか?

このアプローチは、特に数値でいっぱいの大きなテーブルでは、下位および上位の四分位数をレポートするよりもコンパクトで直感的だと思います。


3
つまり、中央値、下四分位、上四分位が共同でデータをよりよく説明すると思います。あなたはここにいくつかの他の記述統計を見つけることができます。

1
できるだけ簡潔になりたい:中央値+ 2四分位数は大丈夫ですか?
Mulone、2012年

4
MADは、データのバッチの分散を表すための優れた統計です。四分位範囲よりも外れ値に対して耐性があります。しかし、中央値 MADが実際に意味するものと、視聴者がそれをどのように解釈すべきかについて考える必要があるかもしれません。平均± SD の同じ漸近的またはチェベイシェフ不等式のような特性はありません。そのため、おそらく、そのような表現が使用されることはほとんどありません。±±
whuber

1
MADは、平均二乗誤差であるmseに類似した平均絶対偏差を表すといつも思っていました。中央値ではなく、平均値からの絶対偏差の平均です。私は正しいですか、それともMADですか?
Michael R. Chernick

2
画像は千の言葉ですが、可能であればヒストグラムを表示することは非常に強力です。
bdeonovic 2017年

回答:


7

±

±

四分位数/四分位数は、追加の数値(4.9,5.0,1000000.0)を犠牲にして、分布のはるかに優れたアイデアを提供します。歪度が3番目の瞬間であることと、歪んだ分布を直観的に視覚化するために3つの数値/次元が必要であるように思われるのは、完全に一致しているとは思えません。

とは言っても、それ自体には何の問題もありません。ここでは、直感と読みやすさについて議論しています。あなた自身またはあなたのチームのためにそれを使用しているなら、狂ってください。しかし、それは幅広い聴衆を混乱させると思います。


2
(+1)加えて、3番目のモーメントに関する歪度の定義は、ライトテールの分布にのみ適用できるため、現在最も受け入れられていないことを付け加えておきます。歪度のより現代的な定義は変位値に基づいており、それらの一部はここにあります

1
@amoebaですか?MADのWikipediaページでは、Median(| Xi-Median(X)|)として定義されています。これは、指定されたデータで0.1です。
Upper_Case 2017年

@Upper_Caseありがとうございます。私は間違っていました(約5-5 = 0期を忘れていました)。今後の読者を混乱させないように、上のコメントを削除します!
アメーバはモニカ

4

MADを使用することは、基になる分布が対称であると想定することになります(中央値を超える偏差と中央値を下回る偏差は等しく考慮されます)。データが歪んでいる場合、これは明らかに間違っています。データの真の変動性を過大評価することになります。

幸いにも、同等にロバストで、計算がほぼ同じであり、対称性を前提としない、マッドのいくつかの代替案の1つを選択できます。

Rousseeuw and Croux 1992ご覧ください。これらの概念は、ここで十分に説明さ、実装されています。これらの2つの推定量は、よく発達した理論がある、いわゆるU統計のクラスのメンバーです。


1

「この論文では、非対称のより正確な指標が研究されています。具体的には、左右の分散の使用が提案され、それらに基づく非対称の指標が導入されています。いくつかの例がその有用性を示しています。分散をより正確に評価する問題は、平均に関するデータの割合は、すべての非対称確率分布に現れます。母集団分布が非対称である場合、一連のデータの平均と分散(または標準偏差)は、データの分布の正確な概念を提供しません。特に形状と対称性。平均、提案された左分散(または左標準偏差)および右分散(または右標準偏差)は、データのセットをより正確に記述すると主張されています。」

リンク


3
あなたは論文の要約を引用し、URLに似たものを提供しました(私はリンクを修正する自由をとりました)。これは、私たちがここで求めている種類の答えではありません。回答を編集し、このリンクが質問への回答に役立つ理由について、独自のコメントを追加することをお勧めします。この非対称性インデックスが平均中心傾向とMADにどのように関連しているかを説明すると、答えは大幅に改善されます。
MånsT
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.