「boxplotを使用する場合とbarplotを使用する場合」のルール(大まかな?)


14

The R Book(Crawley、2013)によると、箱ひげ図と棒グラフの両方がANOVAに適したグラフィックですが、どちらがより適切ですか?状況に依存すると思います...誰か助けていただけますか?


5
1つの問題はいくつかの代替テストで解決できますが、使用するのに最も適切なテストは常に1つだけです」-その文には同意しません。いつもそうだとは思いません。
-Glen_b-モニカの復職14

5
私はここで@Glen_bに同意し、この言葉遣いでも重要なポイントを見逃していることを示唆しています。最も適切なテストの特定は、データの正確な生成プロセスを知ることに最低限依存しますが、これは珍しいことです。長所と短所が異なるいくつかのテストがある可能性があります。
ニックコックス14

1
良い統計的思考の簡単な特性評価で(仮説または有意性)テストに言及することさえないと思います...しかし、これは副次的な問題だと思います。あなたの質問はそれなしで十分に明確です。
ニックコックス14

回答:


18

特にANOVAの図解用:

  • 箱ひげ図または棒グラフは、ANOVAでグラフィカルに表示するよりもはるかに優れていますが、一般的にプロットされるように、両方ともグラフィカルな要約として間接的または不完全です。

  • ANOVAは、1つまたは複数の種類のバリエーションのコンテキストでの平均の比較に関するものであるため、最も適切なグラフィックには、最低でも平均データと生データが表示されます。グループの標準偏差(SD)または関連する量は害を与えません。

  • =+1.5 IQR。このような規則は、ANOVAにとって問題となる可能性のある総外れ値を示すのに役立ちますが、中央値も四分位数もANOVAで役割を果たしません。一般的に、経験豊富なデータアナリストは、顕著な顕著な外れ値や分布の非対称性を、データの変換や非同一性リンク機能を備えた一般化線形モデルの必要性などのアクションが必要な問題の兆候としてとらえます。それにも関わらず、ANOVAが提示されているときにボックスプロットを表示する教科書や他のアカウントの数は驚くべきですが、部屋にいない象、プロットされていない手段については言及しません。

  • 逆に、このコンテキストで最も一般的な種類の棒グラフは、平均値とSDまたは標準エラーによってデータを要約しますが、それ以外の場合は個々のデータポイントの表示を省略します。そのため、たとえば、外れ値やマークされた非対称性は、個々のグループ内のアウトラインの平均値または膨張した変動からのみ推測できます。

一般的に、どの種類のグラフが有用であるかについて多くの提案がありますが、どれが最良かについてはほとんど意見が一致していません。良いグラフが示す基準として提案したい

  • 少なくとも背景またはコンテキストとしての、データの完全な変動パターン

  • データの関連する要約、特に楽しまれるモデルまたは考慮される記述子に関連する要約

  • 想定されている仮定に疑問を投げかけるデータの問題の可能性の兆候

平均とSEを追加したドットまたはストリッププロットなど、ANOVAに役立つ設計がいくつかあります。

ジョン・テューキーによるこの論文は、ここで適切なプロパガンダグラフ分析グラフの違いを説明しています。ANOVAのグラフィカルな図が多すぎると、プロパガンダグラフになります(グループは非常に異なっています)。


では、理想的には平均値、標準偏差、外れ値を含むバイオリンプロットはどうでしょうか。
ziggystar 14

バイオリンのプロットが役立ちます。個人的には、生データに近いものを好むので、モダリティと粒度も見ることができます。
ニックコックス14

8

棒グラフ(関心のある各量を示すために1つの棒が使用されます)とダイナマイトプロット(1つの棒が各グループの平均とエラーバーを示します)を混同しないでください。ダイナマイトプロットは、理由もなくデータの分布を隠すため、決して許容できません。

はい、私はこれが群を抜いて最も一般的なタイプのプロットであることを認識しています。これは、研究者が自分たちのデータの形に置く(低い)重要性を反映する大きな問題です。あなたが殺人兵器を探している探偵だった場合、目撃者があなたに1)武器の位置と大きさだけを言った方が良いでしょうか?または2)場所、サイズ、および形状?

http://biostat.mc.vanderbilt.edu/wiki/pub/Main/TatsukiRcode/Poster3.pdf


ダイナマイトプロットが理想的でない理由に関する他のリソースはありますか?
mguzmann

@mguzmann申し訳ありませんが、私はしません。また、だれがアイデアを思いついたのか、時間の経過とともにその採用などを考えたが、それについて何も見つけられなかった。コンピューターの数日前の平均値+/-エラーのレポート表から進化したと思います。完全なデータセットのテーブルを公開するのに成功した1930年代の論文を見てきましたので、実践が本当に正当化されたかどうかはわかりません。例:ヘドリッチAW。1900〜1931年、メリーランド州ボルチモア、はしかに「かかりやすい」子ども人口の月間推定。Am J Hyg 1933; 17:613-636。
リヴィッド
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.