プロットを準備するとき、どのベストプラクティスに従うべきですか?


40

私は通常、プロットを準備するときに独自の特異な選択をします。しかし、プロットを生成するためのベストプラクティスはあるのでしょうか。

注:この質問への回答に対するRobのコメントは、ここで非常に重要です。

回答:


23

Tufteの原則は、プロットを準備する際の非常に優れたプラクティスです。彼の本「Beautiful Evidence」も参照してください

原則は次のとおりです。

  • 高いデータインク比を維持する
  • チャートのジャンクを削除
  • グラフィカル要素に複数の機能を与える
  • データ密度に留意してください

検索する用語は情報の可視化です


4
Tufteの量的情報の視覚的表示(amazon.com/o/ASIN/0961392142/ref=nosim/gettgenedone-20)は、Beautiful Evidence IMOよりも優れています。しかし、彼の4冊の本はどれも優れており、彼のコースの1つに参加する機会があれば、それを行います。
スティーブンターナー

5
Tufteの言うことの大部分には同意しますが、彼の低いデータ:インクの箱ひげ図は単なるばかげたことです。標準の箱ひげ図よりも3〜4倍時間がかかります。Rのデフォルトははるかに優れています(ただし、テールの端の線は不要です)。従来の箱ひげ図には、サンプルサイズ(幅)と標準偏差(ノッチ)を表すことができるという追加の利点があります。
naught101

2
+1 @ naught101いくつかの他は、上で、この意見を共有するSOstackoverflow.com/questions/6973394/...
ベン

15

ベストプラクティスを示すために1日中ここに滞在することもできますが、Tufteを読むことから始めてください。私の主な推奨事項:

複雑にしないでおく。

多くの場合、人々はチャートに情報をロードしようとします。ただし、伝えようとしている主なアイデアは本当に1つだけであり、誰かがほとんどすぐにメッセージを受け取らない場合は、どのように提示したかを考え直す必要があります。そのため、メッセージ自体が明確になるまでチャートで作業を開始しないでください。オッカムのカミソリもここに適用されます。


1
この点の大部分には同意しますが、「シンプルに保つ」と思います。不明な場合があります。あなたの主なポイントは、あなたがチャートに伝えたいことを知っておくべきだということです。"複雑にしないでおく。" Tufteが推奨する「data:ink比は高くなければなりません。」や、Tufteが推奨しない「3つ以下の変数が存在します。」など、他のアイデアがいくつかあります。
トーマスレヴィン

明らかに、このアドバイスは反対のアドバイスよりも非常に優れています。しかし、グラフが必然的に複雑になり、詳細で注意深い思慮深い研究が必要な状況があります。しかし、合併症自体は可能な限り単純でなければなりません。たとえば、5 x 5マトリックスの25のプロットでは、長時間の調査が必要になる場合がありますが、それぞれがデータの一部のみを示すという考えは比較的把握しやすいです。
ニックコックス

12

私がいつも従うわけではありませんが、時々役に立つのは、あなたのプロットが将来のある時点でそうなる可能性があることを考慮することです。

  • ファックスで送信、
  • コピー、および/または
  • 白黒で再現。

プロットを将来的に不正確に再現したとしても、プロットが伝えようとしている情報がまだ読みやすいように、プロットを十分に明確にする必要があります。


14
私はあなたが過去のある時点でファックスで送られたことを意味すると思います;)
ハドリー

+1。あなたの論文の核心であるあなたの独創的なプロットは、私がそれを印刷したので全く理解できないはずではありません。
フォマイト

この回答は、同様の問題に対処しています。
naught101

8

明確なメッセージを伝えることに加えて、私は常に陰謀を思い出そうとします。

  • ラベルと凡例のフォントサイズは十分に大きくする必要があります。できれば、最終的な出版物で使用されるフォントサイズとフォントと同じサイズにしてください。
  • 線幅は十分に大きくする必要があります(プロットを少しだけ縮小すると、1 ptの線が消える傾向があります)。3〜5ポイントの線幅にしようとしています。
  • 複数のデータセット/曲線を色でプロットする場合は、たとえば、色に加えて異なる記号または線スタイルを使用して、白黒で印刷する場合にそれらが理解できることを確認してください。
  • 常にロスレス(またはロスレスに近い)形式、たとえばpdf、psまたはsvgまたは高解像度pngまたはgifのようなベクター形式を使用します(jpegはまったく機能せず、ラインアート用に設計されていません)。
  • 出版物で使用する最終的なアスペクト比のグラフィックを準備します。後でアスペクト比を変更すると、刺激的なフォントまたはシンボルの形状が得られる場合があります。
  • 未使用のヒストグラム情報、トレンドライン(ほとんど役に立たない)、デフォルトのタイトルなど、無駄な混乱をプロットプログラムから常に削除します。

プロットソフトウェア(matplotlib、ROOTまたはroot2matplotlib)を構成して、デフォルトでこの権利のほとんどを実行します。使用する前は、gnuplotここで特別な注意が必要でした。


8

物理学の分野では、紙/報告書全体をプロットのクイックルックからしか理解できないというルールがあります。だから、私は主に彼らが自明であるべきだとアドバイスします。
これはまた、聴衆が何らかのプロットに精通しているかどうかを常に確認する必要があることを意味します-私はかつて、すべての科学者が箱ひげ図を知っていると仮定して大きな間違いを犯し、それを説明するのに1時間を無駄にしました。


箱ひげ図の経験に共感しますが、これが意味することは、(a)中心にある慣習に基づいて何かを示すのではなく、比較的単純なバリアント(たとえば、中央値、四分位数、5%および95%ポイント、およびそれ以上のすべてのデータポイントを示す)の使用です1.5 IQR; (b)規則を明確にするキャプションを追加します。
ニックコックス

6

私が見る最も一般的なエラーに基づいたガイドラインはここにあります(言及された他のすべての良い点に加えて)

  • 要素の順序が関係ない場合は、折れ線グラフではなく散布図を使用します。
  • 比較対象のプロットを準備するときは、すべてのプロットに同じスケール係数を使用してください。
  • さらに良い-単一のグラフにデータを結合する方法を見つけてください(例:箱ひげ図は、多数の分布を比較するためにいくつかのヒストグラムよりも優れています)。
  • 単位を指定することを忘れないでください
  • 凡例は必要な場合にのみ使用してください-曲線に直接ラベルを付ける方が一般的に明確です。
  • 凡例を使用する必要がある場合は、プロット内の空白領域に移動します。
  • 折れ線グラフの場合、ページとほぼ45oの線が得られるアスペクト比を目指します

「箱ひげ図は、ディストリビューションの大規模な数を比較するには、いくつかのヒストグラムよりも優れている」 -これはあなたのデータは単峰性である場合にのみtrueで、尖度か...箱ひげ図で捕捉することができないいくつかの他の機能を持っていません
naught101

6

Rグラフィックライブラリggplot2を見てください。詳細はWebページhttp://had.co.nz/ggplot2/にあります。このパッケージは、Tufteの原則、Clevelandのガイドライン、およびIhakaのカラーパッケージに従う非常に優れたデフォルトプロットを生成します。


6

色でプロットする場合、色盲の人は色だけで要素を区別するのが難しいかもしれないと考えてください。そう:

  • 線のスタイルを使用して線を区別します。
  • 要素に余分な重みを使用し、線幅を少なくとも2 ptにするなど。
  • さまざまなマーカーと色を使用して、ポイントを区別します。
  • ラベルと注釈を使用し、位置とスタイルも参照します。
  • テキスト内のプロット要素を参照するときは、色、相対的な位置、スタイルでそれらを記述します:「赤、上、一点鎖線」
  • 色覚異常に優しいパレットを使用してください。参照http://www.vischeck.com/vischeck/をhttp://jfly.iam.u-tokyo.ac.jp/color/#pallet。code.google.comの最後のリファレンスでパレットの単純なpython実装があります。python-cudtoolsを探します

また、誰かがグレースケールプリンターで印刷する必要があるかもしれないという事実を考慮してください。以前にこれをやったことがあります-割り当てにggplot2のデフォルト色(画面上で見栄えが良い)を使用して、それを白黒で印刷しましたが、半分の色は他のものと区別できませんでした!*赤面*
naught101

4

これらは素晴らしい提案です。http://biostat.mc.vanderbilt.edu/StatGraphCourseで多くの資料を集めました。製薬業界、学界、およびFDAの統計学者グループも、臨床試験および関連研究に非常に役立つリソースを作成しています。多くの新しい資料が1か月以内に公開されますが、多くはすでにそこにあります-http://www.ctspedia.org/do/view/CTSpedia/PageOneStatGraph

私のお気に入りのグラフィックブックは、William ClevelandによるElements of Graphing Dataです。

私の意見では、ソフトウェアに関しては、Rのggplot2およびラティスパッケージに勝るものはありません。Stataはいくつかの優れたグラフィックもサポートしています。


3

また、プロットを公開したくない場所にも依存します。ジャーナルのプロットを作成する前に、著者向けのガイドを参照することで、多くのトラブルを回避できます。

また、簡単に変更できる形式でプロットを保存するか、作成に使用したコードを保存します。修正する必要がある可能性があります。


3

ダイナマイトプロットを使用しないでください:http : //pablomarin-garcia.blogspot.com/2010/02/why-dynamite-plots-are-bad.html、バイオリンプロットなどを使用します(boxplotsファミリー)


2

他の答えは定型的すぎて説得力がないので、より一般的な答えをさせてください。私はこの質問にしばらく苦労しました。私はこのプロセスを提供します:

  1. あなたのメッセージを知る
  2. 聴衆を知る
  3. 制約を知る
  4. 制約を考慮して、オーディエンスへのメッセージをカスタマイズします

私は「シンプルに保つ」などの全面的な主張に懐疑的です。それはどういう意味ですか?まあ、それは聴衆に依存します。一部の視聴者は、Tufteスタイルを使い果たします。しかし、一部の視聴者は、時々小さなチャートのジャンクを高く評価しています。散布図にうんざりしている人もいます。カラフルな背景が好きな人もいます。「審美的」な純度を妥協しても、彼らを少し関与させることはそれほど間違っていますか?決めるのはあなた次第です。

視聴者の反応は重要なフィードバックの一部になりますが、それだけではありません。あなたは自分の理解を測定する方法見つけた場合は後にプレゼンテーションを、あなたはあなたが作った影響を理解するために開始します。

「正しい」答えは、これらの種類の質問に依存します。

  • どのメディアを使用しますか?

  • 静的プロットまたはインタラクティブプロットを作成していますか?

  • 事前に定義されたストーリーを語ろうとしていますか(説明)、実験を奨励しようとしていますか(探索)。

  • 聴衆に自分の結論をどの程度まで引き出したいですか?

  • 視聴者にあなたのストーリーをどの程度フォローし、説得してもらいたいですか?

  • 聴衆にあなたの調査結果にどの程度挑戦してもらいたいですか?

要約すると、メッセージ、対象者、および制約を考慮して、資料を意図的に設計します。


「エンゲージ」、または気を散らす?色は大丈夫ですが、最終的にはデータについてここにいるので、美学はデータに役立つはずであり、その逆ではありません。
naught101

2

Tufteが言及したことを覚えているようですが、それは他の答えにはありません-それはマッピングです -つまり、あなたのグラフの位置、方向、サイズなどが現実を表すようにします。グラフに表示されるものは、現実の世界に表示されるはずです。大きいものは大きいはずです(エリアはエリアとボリュームボリュームを表す必要があることに注意してください。エリアごとにスカラー値を表そうとしないでください。非常に曖昧です!)。これは、関連する場合、色、形状などにも適用されます。

:興味深い例は、ここでは「スカートシリーズ」グラフである http://a-little-book-of-r-for-time-series.readthedocs.org/en/latest/src/timeseries.html。技術的には正しいですが、「より長い」スカートの長さはグラフ上で高い位置を占めていますが、実際にはかなり混乱しています。スカートの長さは上から始まり、に行くためです(人間や木とは異なり、接地)。したがって、スカートの長さの増加は実際には低い値を表します。

skirts <- scan("http://robjhyndman.com/tsdldata/roberts/skirts.dat",skip=5)
skirtsseries <- ts(skirts,start=c(1866))
plot.ts(skirtsseries, ylim=c(max(skirts),min(skirts)))

ここに画像の説明を入力してください

いつものように、困難があります。たとえば、一般的に前進する時間を考慮し、少なくとも西では左から右に読むため、時系列グラフも通常、時間の経過とともに左から右に流れます。それでは、横方向に最もよく表されるもの(例:何かの東西の測定値)を経時的に表したい場合はどうなりますか?その場合、妥協し、上下に移動する時間を描写する必要があります(これは文化的な認識に依存しますが、私は推測します)、または横方向の変数をグラフの上下にマッピングすることを選択します。


1
時間/空間のトレードオフの例は、「メイキングマップ」という本にあります(重要な議論と例をここに示します
Andy W

ニース(恐ろしい)例!マップは別の、より困難なトレードオフをもたらします。2次元のページで2次元+時間を表現しようとすること(たとえば、大陸移動のマップ)。かなり難しい。しかし、私はそれがアニメーションの目的だと思う:)
naught101

あなたの例では、しばしば発生する2つの余分な点に言及することができます。1.時間軸では、「時間」などのタイトルまたはラベルは通常冗長です。2.「skirtseries」のようなタイトルまたはラベルは、適切な場合の測定単位など、簡潔で有益な説明で常に改善できます。
ニックコックス

1

それは、プロットが議論される方法に依存します。

たとえば、さまざまな場所からの発信者と行われるグループ会議のプロットを送信する場合、ExcelではなくPowerpointでそれらをまとめることを好むので、簡単に反転できます。

1対1のテクニカルコールの場合、クライアントがプロットを脇に移動して生データを表示できるように、Excelに何かを配置します。または、サイド回帰係数に沿ってセルにp値を入力できます。たとえば、

覚えておいてください:特にスライドショーやグループへのメール送信では、プロットは安価です。むしろ、同じグラフに異なるコホート(「男性と女性」など)を配置しようとする5つのプロットよりも、10の明確なプロットを作成します。


1

プロットの選択は、データの分析に使用される統計的検定のタイプを反映する必要があると付け加えます。つまり、分析に使用されたデータの特性はすべて視覚的に表示される必要があります。したがって、t検定を使用した場合は平均値と標準誤差を、Mann-Whitney検定を使用した場合は箱ひげ図を表示します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.