データの分布が対称かどうかを確認するにはどうすればよいですか?


23

中央値と平均値がほぼ等しい場合、対称分布が存在することを意味しますが、この特定のケースでは確信がありません。平均値と中央値は非常に近い(差額は0.487m / gallのみ)ため、対称分布があると言えますが、箱ひげ図を見ると、わずかに正に歪んでいるように見えます(中央値はQ3よりもQ1に近いことが確認されています)値によって)。

(このソフトウェアについて特別なアドバイスがあれば、Minitabを使用しています。)


詳細に関する直交コメント:m / gallはどの単位ですか?それはガロンあたりのメートルのように見え、私は興味をそそられています。
ニックコックス

ここでは、箱ひげ図が通常平均をまったく表示しないという重大な制限があります!
ニックコックス

データの標準偏差とは何ですか?0.487m / gallの値が標準偏差よりもはるかに小さい場合、おそらく分布が対称であると信じる理由があります。その値が標準偏差(またはMADまたはあなたが見ているどんな偏差尺度)よりもはるかに大きい場合、おそらく分布の対称性をさらに調べることは時間の損失です。
usεr11852は回復モニック言う

1
70635649423528211470149162536496481100は意図的に対称ではなく(下半分で均一だが上半分ではない)、ボックスプロットは中央値(平均に等しい)を下四分位よりも上四分位に近く、最大値よりも最小値に近くします。
ヘンリー

@NickCoxそれはまた、タイプミスでミリガルかもしれませ。それは、ほぼ500だろうギャル!または10 4 g 未満。(もちろん、上記のように、MADなどの分散スケールがなければ、「重要な」ものを知る方法はありません。)μ104
GeoMatt22

回答:


29

別の方法で言われたことは間違いありませんが、平均中央値は対称性を意味しませ=

平均マイナス中央値(2番目のピアソン歪度)に基づいた歪度の測定値がありますが、分布が対称でない場合(一般的な歪度測定値のように)0になります。

同様に、平均値と中央値の関係は、必ずしもミッドヒンジ()と中央値の類似した関係を意味するわけではありません。それらは反対の歪度を示唆するか、または一方が中央値に等しく、他方が等しくない場合があります。(Q1+Q3)/2

対称性を調べる1つの方法は、対称プロット *を使用することです。

もしは最小から最大の順序付けられた観測値(順序統計)であり、Mは中央値であり、対称プロットはY n M vs M Y 1 Y n 1 M vs M Y 2 Y(1),Y(2),...,Y(n)MY(n)MMY(1)Y(n1)MMY2 、 ... 等々。

* Minitabはそれらを行うことができます。確かに、Minitabで行われたのを見たので、このプロットを可能性として挙げています。

以下に4つの例を示します。

対称プロット
4つの分布からのサンプルの上記タイプの対称プロット

(実際の分布は(左から右、上段が最初)-Laplace、Gamma(shape = 0.8)、beta(2,2)およびbeta(5,2)です。コードはここからRoss Ihakaのものです

ヘビーテールの対称の例では、最も極端なポイントがラインから非常に遠くなることがよくあります。図の右上に近づくにつれて、1つまたは2つの点の線からの距離にあまり注意を払わなくなります。

もちろん、他にもプロットがあります(対称プロットについては、その特定の主張の特定の意味ではなく、Minitabで既に実装されていることがわかっていたためです)。それでは、他のいくつかを見てみましょう。

Nick Coxがコメントで提案した対応するスキュープロットは次のとおりです。

歪度プロット
Nick Coxのコメントで示唆されている歪度プロット

これらのプロットでは、上昇傾向は左よりも典型的に重い右尾を示し、下降傾向は右よりも典型的に重い左尾を示しますが、対称性は比較的平坦な(おそらくかなりノイズの多い)プロットによって示唆されます。

ニックは、このプロットの方が優れていることを示唆しています(具体的には「より直接的な」)。私は同意する傾向があります。結果として、プロットの解釈はやや簡単になりますが、対応するプロットの情報はよく似ています(最初のセットで単位勾配を引いた後、2番目のセットのようなものが得られます)。

[もちろん、これらのことはどれも、データが引き出された分布が実際に対称であることを教えてくれません。サンプルがどれほど対称に近いかを示すので、その程度まで、データが対称に近い母集団から引き出されたものと合理的に一致しているかどうかを判断できます。


3
@ user72943それに完全に満足している場合は、戻ってGlen_bの答えを選択することを忘れないでください。誰かがより良い回答を送信するかどうかを確認するために少し待つことをお勧めしますが、回答を受け入れるとGlen_bはより多くのクレジットを受け取ります。
ウェイン

3
+

6
Yn+1+Y/2n/2n/4n/8、 等々)。ある意味では、このプロットは対称プロットよりも優れており、過剰な詳細を除去し、視聴者が対称性(またはその欠如)が尾部に移動するときにどのように変化するかに焦点を当てるのに役立ちます。n文字の要約が手元にあればすぐに簡単に計算できるという追加の利点があります。これは、幹葉図から直接読み取ることができます。
whuber

1
@whuberと私は同じ根底にある考え方について話している。違いは、すべてのペアの順序統計をプロットすること(実際にはあまり注意をそらすものではない)と、一部だけをプロットすることです。
ニックコックス

1
stata-journal.com/sjpdf.html?articlenum=gr0003の参照、およびskewplot(SSC)のドキュメントのStataユーザー向けの参照。このアイデアは、少なくとも、MB州ウィルクのJW TukeyとR. 1968のGnanadesikanに起因する提案に遡ります。データ分析のための確率プロット法。Biometrika 55:1-17。
ニックコックス

6

最も簡単なことは、サンプルを計算することです 歪度。Minitabにはそのための機能があります。対称分布の歪度はゼロになります。歪度ゼロは必ずしも対称を意味するわけではありませんが、ほとんどの場合、そうです。

@NickCoxが指摘したように、歪度には複数の定義があります。私はExcel互換性のあるものを使用していますが、他のものも使用できます。


2
これにはスペルが必要だと思います。特に、「歪度」などはありません。多くの測定値があり、一般的でない測定値でさえ、一般的な測定値と同じくらい有用または興味深いことがよくあります(例:Lモーメント)。標準化第三の瞬間を捉えするように誘惑これらの措置は、(と、それはあまりにも、私のデフォルトです)そのカール・ピアソンのための、および他の多くの作家のためだけでなく、20世紀に注意する必要があり、歪度は、ほとんどの場合、モードと比較して測定しました。
ニックコックス

非対称性を検出するためのパワーが不足していることを除けば(正確に述べたように)、歪度係数も3番目のサンプルモーメントに基づいているため、(非常に)非ロバストになります。また、多くの(そして興味深い)方法で対称性に違反する可能性があるため、対称性の単一の数値的特性は、探索的データ分析の文献に記載されているより豊富なグラフィカル診断の代替としては不十分です。
whuber

1

サンプル平均を差し引くことにより、データをゼロ付近にセンタリングします。ここで、データをネガティブとポジティブの2つの部分に分割します。負のデータポイントの絶対値を取得します。次に、2つのパーティションを相互に比較して、2サンプルのコルモゴロフ-スミルノフ検定を実行します。p値に基づいて結論を出します。


0

観測値をある列の増加する値に並べ替えてから、減少する値に並べ替えて別の列に並べます。
次に、これら2つの列間の相関係数(Rmと呼びます)を計算します。
カイラルインデックスの計算:CHI =(1 + Rm)/ 2。
CHIは、間隔[0..1]の値を取ります。
CHIは、サンプルが対称的に分布している場合のみヌルです。
3番目の瞬間は必要ありません。
理論:
http://petitjeanmichel.free.fr/itoweb.petitjean.skewness.html
http://petitjeanmichel.free.fr/itoweb.petitjean.html
(ほとんどの論文は、これらの2つのページに引用されたPDFファイルでダウンロード可能がある)
・ホープそれ最近でも役立ちます。


相関、Rmは必ずしも負ではありませんか?Rmが1でない限りCHIが1になる可能性はありませんが、col1は増加順にソートされ、col2は減少順にソートされるため、RM <= 0、つまりCHIは[0、.5]の値を取ります。何か不足していますか?
gung-モニカの回復

はい、実線上の値を取るランダム変数の分布では、Rmを正にせず、CHIを1/2にすることはできません。実際、上限1は、カイラルインデックスを導入する一般理論に基づいています。より一般的な空間で値を取るランダム変数の分布に意味があります。この理論は現在の議論の範囲外ですが、前に述べた2つのWebページに示されています。
プチジャン

アカウントを登録および/または統合してください(これを行う方法については、Googleの[アカウント]セクションをご覧ください)ヘルプセンターの)。その後、自分の質問を編集およびコメントできます。
GUNG -復活モニカ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.