歪度の1つの尺度は、平均中央値- ピアソンの2番目の歪度係数に基づいています。
歪度の別の尺度は、比として表される相対四分位差(Q3-Q2)対(Q2-Q1)に基づいています。
(Q3-Q2)対(Q2-Q1)が代わりに差(または同等の中間ヒンジ中央値)として表される場合、IQRによって、たとえば無次元化するためにスケーリングする必要がありますここ()。u = 0.25
最も一般的な尺度は、もちろん3次モーメント歪度です。
これら3つの測定値が必ずしも一貫しているという理由はありません。それらのいずれかが他の2つと異なる場合があります。
私たちが「スキューネス」と見なしているのは、やや滑りやすく不明確な概念です。詳細については、こちらをご覧ください。
通常のqqplotでデータを見ると:
[そこにマークされている線は、最初の6点のみに基づいています。なぜなら、最後の2つのパターンからの偏差を議論したいからです。]
最小の6点がほぼ完全に線上にあることがわかります。
次に、7番目のポイントはラインの下にあり(左端から2番目の対応するポイントよりも相対的に中央に近い)、8番目のポイントは上にあります。
7番目のポイントは、穏やかな左スキュー、最後のより強い右スキューを示唆しています。いずれかのポイントを無視すると、歪度の印象は完全に他方によって決定されます。
私はそれがどちらかであると言わなければならなかった場合、私はそれを「右スキュー」と呼びますが、印象は完全にその1つの非常に大きなポイントの効果によるものであることも指摘します。それがなければ、それが正しいスキューであると言うことは本当に何もありません。(一方で、代わりに7番目のポイントがない場合、明らかに左スキューではありません。)
印象が完全に単一のポイントによって決定され、1つのポイントを削除することで反転できる場合は、非常に注意する必要があります。それは続けるための基礎の多くではありません!
私は、外れ値を「外れ値」にするのはモデルであるという前提から始めます(1つのモデルに関する外れ値は、別のモデルでは非常に一般的です)。
正規分布の0.01パーセンタイル(1/10000)での観測(平均値より3.72 sds)は、指数分布の0.01パーセンタイルでの観測が指数モデルに対するものであるのと同様に、正規モデルに対する外れ値であると思います。(分布を独自の確率積分変換で変換すると、それぞれが同じユニフォームになります)
ボックスプロットルールを適度に右のスキュー分布に適用する場合の問題を確認するには、指数分布から大きなサンプルをシミュレートします。
たとえば、法線からサイズ100のサンプルをシミュレートする場合、サンプルごとの平均値は1未満です。指数でそれを行う場合、平均は約5です。しかし、通常のモデルと比較してそれを行わない限り、指数値の高い割合が「範囲外」であると言う本当の根拠はありません。特定の状況では、特定の形式の外れ値ルールを使用する特定の理由があるかもしれませんが、一般的なルールはなく、このサブセクションで始めたような一般的な原則があります-各モデル/分布を独自のライトで処理する(値がモデルに関して珍しくない場合、なぜその状況で外れ値と呼ぶのですか?)
タイトルの質問に目を向けるには:
それはかなり粗雑な道具ですが(これがQQプロットを見た理由です)、箱ひげ図にはゆがみのいくつかの兆候があります-少なくとも1つのポイントが外れ値としてマークされている場合、潜在的に(少なくとも)3つあります:
このサンプル(n = 100)では、外側の点(緑色)が極値を示しており、中央値が左の歪度を示しています。次に、フェンス(青)は(中央値と組み合わせると)右の歪みを示唆しています。次に、ヒンジ(四分位、茶色)は、中央値と組み合わせたときに左の歪みを示唆します。
ご覧のとおり、それらは一貫している必要はありません。どちらに焦点を合わせるかは、あなたがいる状況(そしておそらくあなたの好み)に依存します。
ただし、箱ひげ図の粗さに関する警告。ここで最後の例(データの生成方法の説明を含む)は、同じ箱ひげ図で4つのまったく異なる分布を与えます。
ご覧のとおり、上記の歪度の指標はすべて完全な対称性を示しており、かなり歪んだ分布があります。
-
「これはボックスプロットであり、1つのポイントを外れ値としてマークするので、教師はどのような答えを期待していたのか」という観点からこれを見てみましょう。
最初に「その点を除いて歪度を評価することを期待しますか、それともサンプルでそれを使用しますか?」と答えます。jskが別の回答で行ったように、一部の人はそれを除外し、残っているものから歪度を評価します。私はそのアプローチの側面に異議を唱えていますが、それが間違っていると言うことはできません-それは状況に依存します。いくつかはそれを含みます(特に、正規性から派生したルールのためにサンプルの12.5%を除外することは大きなステップ*であるためです)。
*一番右の尾を除いて対称な個体群分布を想像してください(私はこれに答えるためにそのようなものを作成しました-通常ですが、極端な右尾はパレートです-私の答えにそれを提示しませんでした)。サイズ8のサンプルを描画する場合、多くの場合、観測の7つは通常の外観の部分からのもので、1つは上尾からのものです。その場合、ボックスプロットの外れ値としてマークされたポイントを除外すると、実際にスキューがあることを示しているポイントは除外されます!そうすると、その状況に残る切り捨てられた分布は左スキューになり、正しい結論の反対になります。