ボックスプロットから歪度を評価する方法は?


19

このデータから作成された箱ひげ図を見て歪度を決定する方法:

340、300、520、340、320、290、260、330

ある本は、「下位の四分位数が上位の四分位数よりも中央値から遠い場合、分布は負に歪んでいます」と述べています。他のいくつかの情報源は、ほぼ同じことを言った。

Rを使用して箱ひげ図を作成しました。次のようなものです。

ボックスプロット

下の四分位数は上の四分位数よりも中央値から遠いので、それは負に歪んでいると思います。しかし、問題は、歪度を決定するために別の方法を使用する場合です。

平均(337.5)>中央値(325)

これは、データが正に歪んでいることを示します。私は何か見落としてますか?

回答:


19

歪度の1つの尺度は、平均中央値- ピアソンの2番目の歪度係数に基づいています。

歪度の別の尺度は、比として表される相対四分位差(Q3-Q2)対(Q2-Q1)に基づいています。

(Q3-Q2)対(Q2-Q1)が代わりに差(または同等の中間ヒンジ中央値)として表される場合、IQRによって、たとえば無次元化するためにスケーリングする必要がありますここ()。あなたは=0.25

最も一般的な尺度は、もちろん3次モーメント歪度です。

これら3つの測定値が必ずしも一貫しているという理由はありません。それらのいずれかが他の2つと異なる場合があります。

私たちが「スキューネス」と見なしているのは、やや滑りやすく不明確な概念です。詳細については、こちらをご覧ください。

通常のqqplotでデータを見ると:

ここに画像の説明を入力してください

[そこにマークされている線は、最初の6点のみに基づいています。なぜなら、最後の2つのパターンからの偏差を議論したいからです。]

最小の6点がほぼ完全に線上にあることがわかります。

次に、7番目のポイントはラインの下にあり(左端から2番目の対応するポイントよりも相対的に中央に近い)、8番目のポイントは上にあります。

7番目のポイントは、穏やかな左スキュー、最後のより強い右スキューを示唆しています。いずれかのポイントを無視すると、歪度の印象は完全に他方によって決定されます。

それがどちらかであると言わなければならなかった場合、私はそれを「右スキュー」と呼びますが、印象は完全にその1つの非常に大きなポイントの効果によるものであることも指摘します。それがなければ、それが正しいスキューであると言うことは本当に何もありません。(一方で、代わりに7番目のポイントがない場合、明らかに左スキューではありません。)

印象が完全に単一のポイントによって決定され、1つのポイントを削除することで反転できる場合は、非常に注意する必要があります。それは続けるための基礎の多くではありません!


私は、外れ値を「外れ値」にするのはモデルであるという前提から始めます(1つのモデルに関する外れ値は、別のモデルでは非常に一般的です)。

正規分布の0.01パーセンタイル(1/10000)での観測(平均値より3.72 sds)は、指数分布の0.01パーセンタイルでの観測が指数モデルに対するものであるのと同様に、正規モデルに対する外れ値であると思います。(分布を独自の確率積分変換で変換すると、それぞれが同じユニフォームになります)

ボックスプロットルールを適度に右のスキュー分布に適用する場合の問題を確認するには、指数分布から大きなサンプルをシミュレートします。

たとえば、法線からサイズ100のサンプルをシミュレートする場合、サンプルごとの平均値は1未満です。指数でそれを行う場合、平均は約5です。しかし、通常のモデルと比較してそれを行わない限り、指数値の高い割合が「範囲外」であると言う本当の根拠はありません。特定の状況では、特定の形式の外れ値ルールを使用する特定の理由があるかもしれませんが、一般的なルールはなく、このサブセクションで始めたような一般的な原則があります-各モデル/分布を独自のライトで処理する(値がモデルに関して珍しくない場合、なぜその状況で外れ値と呼ぶのですか?)


タイトルの質問に目を向けるには

それはかなり粗雑な道具ですが(これがQQプロットを見た理由です)、箱ひげ図にはゆがみのいくつかの兆候があります-少なくとも1つのポイントが外れ値としてマークされている場合、潜在的に(少なくとも)3つあります:

ここに画像の説明を入力してください

このサンプル(n = 100)では、外側の点(緑色)が極値を示しており、中央値が左の歪度を示しています。次に、フェンス(青)は(中央値と組み合わせると)右の歪みを示唆しています。次に、ヒンジ(四分位、茶色)は、中央値と組み合わせたときに左の歪みを示唆します。

ご覧のとおり、それらは一貫している必要はありません。どちらに焦点を合わせるかは、あなたがいる状況(そしておそらくあなたの好み)に依存します。

ただし、箱ひげ図の粗さに関する警告。ここで最後の例(データの生成方法の説明を含む)は、同じ箱ひげ図で4つのまったく異なる分布を与えます。

ここに画像の説明を入力してください

ご覧のとおり、上記の歪度の指標はすべて完全な対称性を示しており、かなり歪んだ分布があります。

-

「これはボックスプロットであり、1つのポイントを外れ値としてマークするので、教師はどのような答えを期待していたのか」という観点からこれを見てみましょう。

最初に「その点を除いて歪度を評価することを期待しますか、それともサンプルでそれを使用しますか?」と答えます。jskが別の回答で行ったように、一部の人はそれを除外し、残っているものから歪度を評価します。私はそのアプローチの側面に異議を唱えていますが、それが間違っていると言うことはできません-それは状況に依存します。いくつかはそれを含みます(特に、正規性から派生したルールのためにサンプルの12.5%を除外することは大きなステップ*であるためです)。

*一番右の尾を除いて対称な個体群分布を想像してください(私はこれに答えるためにそのようなものを作成しました-通常ですが、極端な右尾はパレートです-私の答えにそれを提示しませんでした)。サイズ8のサンプルを描画する場合、多くの場合、観測の7つは通常の外観の部分からのもので、1つは上尾からのものです。その場合、ボックスプロットの外れ値としてマークされたポイントを除外すると、実際にスキューがあることを示しているポイントは除外されます!そうすると、その状況に残る切り捨てられた分布は左スキューになり、正しい結論の反対になります。


1
@jskこれは、歪度の測定方法によって異なります。歪度は部分的に外れ点によって決定されるため(1つの方向が他の方向よりも外れている傾向があります)、それらを削除すると、歪度を測定する点が間違いなく失われます。より詳細な議論と分析は、私の最新の投稿にあります。あなたが納得していないなら、遠慮なく意見を交換してください、そのような交換はしばしば価値があります。
グレン_b-モニカの復帰14

1
@Glen_b私は確かにあなたが取っているスタンスを尊重し理解していますが、以前とは対照的に外れ値を取り除いた後にスキューを判断するための合理的な議論があると信じています。外れ値を削除した後、7番目のポイント(260)を削除した後でも、分布は負に歪んでいます。qqplotを確認し、平均値と中央値を比較しましたか?
jsk

1
おそらく、7番目を削除した後のケースはかなり弱いですが、スキューを削除した後にスキューを判断することを正当化する理由はありません。外れ値ではありませんが、スキューの測定値は、この場合の見方に関係なく、単一のポイントによって駆動されていることは十分に理解されています。
jsk

1
@Glen_ b Q3 + 1.5IQRは、アッパーテールの外れ値を識別するためにこのレベルで教えられる一般的な経験則です。それらを削除するかどうかは別の問題です。平均が大きいため、分布が正しく歪んでいると主張していますか?Q1がQ3よりもQ2から遠いという事実を無視するのはなぜですか?
jsk

1
ここでは、表面近くに何があるかを詳しく説明しますが、完全ではありません。多くの場合、箱ひげ図は凝縮しすぎているので、すべてのデータも調べる必要があります。
ニックコックス

11

いいえ、あなたは何も見逃していませんでした。あなたは実際に、提示された単純な要約を超えて見ています。 これらのデータは正と負の両方に偏っています(「分布」の意味では、データ分布に何らかの非対称性があることを示唆しています)。

ジョン・テューキーは、彼の「N番号の要約」を使用して、データのバッチで非対称性を調査する体系的な方法を説明しました。箱ひげ図は5桁の要約の図であるため、この分析に適しています。


MH+Hバツ+バツT+T+TM=M+=MT++T/2

このアイデアを箱ひげ図に適用するには、対応する部分の各ペアの中点を描画します:中央値(既に存在します)、ヒンジの中点(ボックスの端、青で表示)、および極値の中点(赤で表示)。

ボックスプロット

この例では、中央値と比較して中間ヒンジの値が低いことは、バッチの中央がわずかに負に歪んでいることを示しています(それにより、質問で引用された評価を裏付けると同時に、その範囲をバッチの中央に適切に制限します))中間極値の(より高い)値は、バッチのテール(または少なくともその極値)が正に歪んでいることを示しています(ただし、詳細な検査では、これは単一の高い外れ値によるものです)。これはほとんど些細な例ですが、単一の「歪度」統計と比較したこの解釈の相対的な豊かさは、すでにこのアプローチの記述力を明らかにしています。

少し練習すれば、これらの中間統計を描画する必要はありません。それらがどこにあるかを想像し、結果の歪度情報をボックスプロットから直接読み取ることができます。


MHEDバツ=12345。次の図の左側のプロットは、これらのペア統計の中間点の診断プロットです。加速する傾斜から、後部に手を伸ばすにつれてデータがますます積極的に歪んでいることが明らかです。

図2

中央と右側のプロットは、平方根(データの中間数統計ではなく)と(10を底とする)対数について同じことを示しています。根の値の相対的な安定性(比較的小さな垂直範囲と中央で傾斜したレベルに注意)は、219の値のこのバッチが、中央部分と尾のすべての部分の両方でほぼ対称になり、ほぼ高さが平方根として再表現される場合の極値。この結果は、これらの高さを平方根の観点からさらに分析し続けるための強力な(ほぼ説得力のある)基盤です。

とりわけ、これらのプロットはデータの非対称性について定量的なものを明らかにします。元のスケールでは、データのさまざまな歪度を即座に明らかにします(単一の統計量を使用してその歪度を特徴付けることの有用性にかなりの疑問を投げかけます)平方根スケールの場合、データは中央で対称に近いため、5つの数字の要約、または同等の箱ひげ図で簡潔に要約できます。歪度は再び対数スケールでかなり変化し、対数がこれらのデータを再表現するには「強すぎる」ことを示しています。

箱ひげ図を7、9、またはそれ以上の数の要約に一般化するのは簡単です。テューキーはそれらを「概略プロット」と呼びます。今日、QQプロットのようなスタンバイや、「beanプロット」や「violinプロット」などの相対的な新規性を含め、多くのプロットが同様の目的に役立ちます。(この目的のために、低度のヒストグラムを使用することもできます。)そのようなプロットのポイントを使用して、非対称を詳細に評価し、データを再表現する方法の同様の評価を実行できます。


7

中央値よりも小さいまたは大きいという意味は、外れ値がない限り、スキューの方向を決定するためにしばしば機能するショートカットです。この場合、分布は負に歪んでいますが、平均は外れ値のため中央値よりも大きくなっています。


それは説明します。私が読んだ本はこれについてまったく言及していませんでした!
JerryW

願わくば、少なくとも平均値が中央値よりも外れ値に対する耐性がはるかに低いことを本が言及していればいいのですが!
JSK

それが負のスキューとしてカウントされるかどうかは、スキューネスの測定方法によって異なります。
Glen_b-モニカーの復活2014

けっこうだ。これは小さなデータセットであるため、歪度の判断が特に困難になります。私は、この例では、残念ながらちょうどスキューを決定するための親指の矛盾ルールを持っていることの理由のためにそこに投げられた推測
JSKを

1
このような小さなデータセットでは困難になる可能性がありますが、同様に困難な連続分布を構築することは完全に可能です。
グレン_b-モニカの復帰14
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.