私は高度に歪んだデータに取り組んでいるので、中心的な傾向を要約するために平均の代わりに中央値を使用しています。分散の測定値が欲しい中心傾向を要約するために、平均標準偏差または中央値四分位数を報告する人がよく見られますが、中央値中央値絶対分散(MAD) を報告しても問題ありませんか?このアプローチには潜在的な問題がありますか?
このアプローチは、特に数値でいっぱいの大きなテーブルでは、下位および上位の四分位数をレポートするよりもコンパクトで直感的だと思います。
私は高度に歪んだデータに取り組んでいるので、中心的な傾向を要約するために平均の代わりに中央値を使用しています。分散の測定値が欲しい中心傾向を要約するために、平均標準偏差または中央値四分位数を報告する人がよく見られますが、中央値中央値絶対分散(MAD) を報告しても問題ありませんか?このアプローチには潜在的な問題がありますか?
このアプローチは、特に数値でいっぱいの大きなテーブルでは、下位および上位の四分位数をレポートするよりもコンパクトで直感的だと思います。
回答:
四分位数/四分位数は、追加の数値(4.9,5.0,1000000.0)を犠牲にして、分布のはるかに優れたアイデアを提供します。歪度が3番目の瞬間であることと、歪んだ分布を直観的に視覚化するために3つの数値/次元が必要であるように思われるのは、完全に一致しているとは思えません。
とは言っても、それ自体には何の問題もありません。ここでは、直感と読みやすさについて議論しています。あなた自身またはあなたのチームのためにそれを使用しているなら、狂ってください。しかし、それは幅広い聴衆を混乱させると思います。
「この論文では、非対称のより正確な指標が研究されています。具体的には、左右の分散の使用が提案され、それらに基づく非対称の指標が導入されています。いくつかの例がその有用性を示しています。分散をより正確に評価する問題は、平均に関するデータの割合は、すべての非対称確率分布に現れます。母集団分布が非対称である場合、一連のデータの平均と分散(または標準偏差)は、データの分布の正確な概念を提供しません。特に形状と対称性。平均、提案された左分散(または左標準偏差)および右分散(または右標準偏差)は、データのセットをより正確に記述すると主張されています。」