ポアソン分散データのボックスプロットバリアントはありますか?


33

ポアソン分布データ(またはおそらく他の分布)に適応したボックスプロットバリアントがあるかどうかを知りたいですか?

ガウス分布では、ウィスカはL = Q1-1.5 IQRおよびU = Q3 + 1.5 IQRに配置されているため、箱ひげ図には、高い外れ値(Uより上の点)とほぼ同じくらい多くの低い外れ値(Lより下の点)があります)。

ただし、データがポアソン分布の場合、正の歪度によりPr(X <L)<Pr(X> U)が得られるため、これはもはや成り立ちません。ポアソン分布に「適合する」ようにひげを配置する別の方法はありますか?


2
最初にログに記録してみてください?また、箱ひげ図を「よく適合させる」こともできます。
共役前

2
このような変更を行うことには1つの問題があります。人々は標準的な箱ひげ図の定義に慣れており、あなたがそれを好むかどうかに関わらずプロットを見たときにそれを仮定するでしょう。したがって、これはゲインよりも混乱を招く可能性があります。

@mbq:>箱ひげ図の特徴は、2つの機能を1つのツールに結合することです。データ視覚化機能(ボックス)と異常値検出機能(ひげ)。あなたが言うことは前者については絶対に真実ですが、後者はスキュー調整を使用できます。
user603

@conjugatepriorポアソンのサンプルは次のとおりです。0、0、1、0、1、2、0、0、1、0、0 ....ログを取得するだけの問題に注意してください。
-Glen_b-モニカーの復活2013

@Glen_bだからこそ、答えではなくコメントなのです。そして、なぜ2つの部分があるのか​​。
共役

回答:


31

ボックスプロットは、すべての場合においてウィスカの端を超える可能性を低くするように設計されていません。それらは、データセットの大部分の単純なグラフィカルな特性として意図され、通常使用されます。そのため、データに非常にゆがんだ分布がある場合でも問題ありません(ただし、ほぼゆがんだ分布に関する情報ほど多くの情報を公開しない場合もあります)。

ポアソン分布のように箱ひげ図が歪んでいる場合、次のステップは、基礎となる変数を(単調増加する変換で)再表現し、箱ひげ図を再描画することです。ポアソン分布の分散はその平均に比例するため、使用する適切な変換は平方根です。

各箱ひげ図は、与えられた強度(1から10、強度ごとに2回試行)のポアソン分布からの50個のiid描画を示しています。歪度が低くなる傾向があることに注意してください。

並列ボックスプロット

平方根スケールの同じデータは、ボックスプロットがわずかに対称的で、(最低強度を除いて)強度に関係なくほぼ等しいIQRを持つ傾向があります)。

変換されたデータの箱ひげ図

つまり、箱ひげ図アルゴリズムを変更しないでください。代わりにデータを再表現してください。


ちなみに、計算に関連する可能性は次のとおりです。同じ分布からのn個の独立したドローから推定されるように、独立した正規変量が上限(下限)フェンスUL)を超える 可能性はどのくらいですか?XULn これは、箱ひげ図のフェンスが基礎となる分布から計算されるのではなく、データから推定されるという事実を説明しています。ほとんどの場合、可能性は1%をはるかに超えています!たとえば、ここ(10,000回のモンテカルロ試行に基づく)は、場合のログ(10を底とする)確率のヒストグラムです。n=9

確率のヒストグラム

(正規分布は対称であるため、このヒストグラムは両方のフェンスに適用されます。)1%/ 2の対数は約-2.3です。明らかに、ほとんどの場合、確率はこれより大きくなります。時間の約16%が10%を超えています!

これらの確率の分布は、強度が1のポアソン分布でもかなり歪んでいる場合でも(が小さい場合)通常の場合に匹敵することがわかります(この応答を詳細で混乱させません)。主な違いは、通常、低い外れ値を見つける可能性は低く、高い外れ値を見つける可能性は少し高いことです。n


1
+1、私はこのスレッドを見たことがありません。この投稿で別の方法で水平ルールの後にここで説明されているのと同じポイントを作りました(統計ソフトウェアによって異常値としてフラグが付けられたケースを削除するかどうか)
GUNG -復活モニカ

はい、それは@gungと同じポイントです-そしてあなたはそこにいい答えを投稿しました。
whuber

26

私が知っている標準的な箱ひげ図の一般化があり、そこでは歪んだデータを説明するためにひげの長さが調整されます。詳細は、非常に明確で簡潔なホワイトペーパーで詳しく説明されています(Vandervieren、E.、Hubert、M.(2004)「歪んだ分布の調整された箱ひげ図」、 こちらを参照)。

これの実装(robustbase :: adjbox())とmatlab 実装(libraというライブラリ内)があります。Rrobustbase::adjbox()libra

個人的には、データ変換のより良い代替手段であると思います(アドホックルールにも基づいていますが、ホワイトペーパーを参照)。

ちなみに、ここでwhuberの例に追加するものがあります。ウィスカーの動作について説明している範囲内で、汚染されたデータを検討する際に何が起こるかを実際に検討する必要があります。

library(robustbase)
A0 <- rnorm(100)
A1 <- runif(20, -4.1, -4)
A2 <- runif(20,  4,    4.1)
B1 <- exp(c(A0, A1[1:10], A2[1:10]))
boxplot(sqrt(B1), col="red", main="un-adjusted boxplot of square root of data")
adjbox(      B1,  col="red", main="adjusted boxplot of data")

この汚染モデルでは、B1のデータの20%が左半分、右半分の外れ値で保存される対数正規分布が本質的にあります(adjboxのブレークダウンポイントは通常のボックスプロットのブレークダウンポイントと同じです。つまり、最大でデータの25%が不良である可能性があります)。

グラフは、変換されたデータの古典的な箱ひげ図を表します(平方根変換を使用)

データの平方根変換に関する古典的な箱ひげ図

変換されていないデータの調整された箱ひげ図。

非変換データの調整された箱ひげ図

調整された箱ひげ図と比較して、前者のオプションは実際の外れ値をマスクし、良いデータを外れ値としてラベル付けします。一般に、問題のあるポイントを外れ値として分類することにより、データの非対称性の証拠を隠すように工夫します。

この例では、データの平方根で標準の箱ひげ図を使用するアプローチでは、13個の外れ値(すべて右側)が見つかりますが、調整された箱ひげ図では10個の右および14個の左の外れ値が見つかります。

編集:調整されたボックスプロットの概要。

「古典的な」箱ひげ図では、ひげは次の場所に配置されます。

-1.5 * IQRおよび Q 3Q1Q3 + 1.5 * IQR

ここで、IQRは分位間範囲、は25パーセンタイル、Q 3はQ1Q3は75パーセンタイルです。経験則では、フェンスの外側はすべて疑わしいデータと見なされます(フェンスは2つのウィスカーの間隔です)。

この経験則はアドホックです:正当化は、データの汚染されていない部分がほぼガウス分布である場合、このルールを使用して良好なデータの1%未満が不良として分類されることです。

OPが指摘しているように、このフェンスルールの弱点は、2つのウィスカーの長さが同じであるということです。つまり、データの汚染されていない部分に対称分布がある場合にのみフェンスルールが意味を持ちます。

一般的なアプローチは、フェンスルールを保存し、データを適応させることです。アイデアは、いくつかのスキュー補正単調変換(平方根​​または対数、より一般的にはボックスコックス変換)を使用してデータを変換することです。これはやや厄介なアプローチです:循環ロジックに依存し(この段階では観測不能なデータの汚染されていない部分の歪度を修正するために変換を選択する必要があります)、データの解釈を難しくする傾向があります視覚的に。いずれにせよ、これは奇妙な手順であり、データを変更して、アドホックルールを保持します。

別の方法は、データをそのままにしてウィスカールールを変更することです。調整された箱ひげ図により、各ウィスカの長さは、データの汚染されていない部分の歪度を測定する指標に従って変化します。

Q1exp(M,α)Q3exp(M,β) 1.5 * IQR

Mα βは、汚染されていない歪んだ分布の場合、歪んだ分布の大規模なコレクション全体でフェンスの外側にある確率が比較的小さくなるように選択された数値です(これはフェンスルールのアドホック部分です)。

M0と我々の古典ウィスカーにしているバック。

MMαβ

Q1exp(4M)Q3exp(3M)M0

Q1exp(3M)Q3exp(4M)M<0


1
私の例がどのように「役に立たない」のを知りたいと思います。それをそのままブランド化することは建設的ではありません。この例は、データ変換が目覚しい改善を表していないという意味で、ややがっかりしていることを認めます。それがポアソン分布の欠点です。これらは、このすべての分析の面倒な価値があるほど歪んでいません!
whuber

@whuber:>まず、トーンについて申し訳ありません:編集されていない最初のドラフトからのものであり、修正されています(私は通常、自己へのメモとして簡単な段落を書いてから繰り返し繰り返します-これは失われました長い巻き合わせ応答)。さて、批評家自身のために:あなたの例は、汚染されていないデータの場合の変換を使用したソリューションの動作を示しています。私見ウィスカルールは、おそらく予備的なものであり、汚染モデルを念頭に置いて評価する必要があります。
user603

@user説明をありがとう。私は批判を気にしませんが、これは興味深いことであり、調整された箱ひげ図への言及に感謝します。(+1)
whuber

私はuser603に同意します。純粋な分布(whubersの回答など)を検査するか、分布といくつかの外れ値(ここでは汚染として説明します)からのデータがあるかで違いがあります。私の観点からは、実際の設定では、ボックスプロットを使用して外れ値をスキャンします。その後、外れ値を省略した箱ひげ図の分析では、どういうわけかポイントが失われます。したがって、この答えは、箱ひげ図を使用する目的により適しているようです。
ヘンリック

2
@Henrik外れ値の特定は、箱ひげ図の多くの目的の1つにすぎません。Tukeyのアプローチは、分布の中央をほぼ対称にするデータの適切な再表現を最初に見つけることでした。これにより、歪度を調整する必要がなくなります。これは、箱ひげ図間の比較を許可するという点ですでに多くのことを達成しています。ウィスカを「調整」すると、この根本的な問題を完全に見逃してしまいます。したがって、調整の使用には注意が必要です。調整の必要性は、分析がうまく行われていないことを示す信号です。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.