ノッチ付きボックスプロットを解釈する方法


11

いくつかのEDAを実行しているときに、因子の2つのレベルの違いを示すために箱ひげ図を使用することにしました。

ggplotがボックスプロットをレンダリングする方法は満足のいくものでしたが、少し単純化されています(以下の最初のプロット)。ボックスプロットの特性を調査しながら、ノッチの実験を開始しました。

ノッチは中央値の周りにCIを表示し、2つのボックスのノッチが重ならない場合、95%の信頼レベルで「中央値が異なる」という「強力な証拠」があることを理解しています。

私の場合(2番目のプロット)、ノッチは有意に重なりません。しかし、なぜ右側のボックスの底が奇妙な形をしているのですか?

同じデータをバイオリンプロットにプロットしても、対応するバイオリンの確率密度に異常はありませんでした。

図1箱ひげ図

図2ノッチ付き箱ひげ図


1
ggplotコードでは、現在amが数値変数として使用されているため、fill = factor(am)を使用する必要があります。
rnso

これは素晴らしい場所です@rnso
RDJ

誰でも元のデータを投稿できますか?の標準的なサンドボックスからのものだと思いますggplot2。個々のデータポイントをプロットするアイデアも気に入っていますが、暗いボックス内のポイントが非表示になっている限り、それはイライラします。
Nick Cox

回答:


18

私の場合(2番目のプロット)、ノッチは有意に重なりません。しかし、なぜ右側のボックスの底が奇妙な形をしているのですか?どうすれば説明できますか?

これは、25パーセンタイルが約21、75パーセンタイルが約30.5であることを示しています。また、ノッチの下限と上限は約18と27です。

一般的な理由は、分布が歪んでいるか、サンプルサイズが小さいことです。ノッチの境界は以下に基づいています。

メートルeda±1.57×QR

中央値と25パーセンタイルの間の距離と中央値と75パーセンタイルの間の距離が極端に異なる(右の図のように)場合、またはサンプルサイズが小さい場合、ノッチは広くなります。ノッチ境界が25パーセンタイルと75パーセンタイル(別名、ボックス)よりも極端に広いほど幅が広い場合、ノッチ付きボックスプロットはこの「裏返し」の形状を表示します。


1
詳しい説明ありがとうございます。なぜ、ノッチの下限と上限が18と27ではなく、17と24になっているのですか(右側の箱ひげ図で)。
デニス

@Denis、それをキャッチしてくれてありがとう。改訂しました。
Penguin_Knight
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.