回答:
Tufteの原則は、プロットを準備する際の非常に優れたプラクティスです。彼の本「Beautiful Evidence」も参照してください
原則は次のとおりです。
検索する用語は情報の可視化です
SO
: stackoverflow.com/questions/6973394/...
ベストプラクティスを示すために1日中ここに滞在することもできますが、Tufteを読むことから始めてください。私の主な推奨事項:
複雑にしないでおく。
多くの場合、人々はチャートに情報をロードしようとします。ただし、伝えようとしている主なアイデアは本当に1つだけであり、誰かがほとんどすぐにメッセージを受け取らない場合は、どのように提示したかを考え直す必要があります。そのため、メッセージ自体が明確になるまでチャートで作業を開始しないでください。オッカムのカミソリもここに適用されます。
明確なメッセージを伝えることに加えて、私は常に陰謀を思い出そうとします。
プロットソフトウェア(matplotlib、ROOTまたはroot2matplotlib)を構成して、デフォルトでこの権利のほとんどを実行します。使用する前は、gnuplot
ここで特別な注意が必要でした。
物理学の分野では、紙/報告書全体をプロットのクイックルックからしか理解できないというルールがあります。だから、私は主に彼らが自明であるべきだとアドバイスします。
これはまた、聴衆が何らかのプロットに精通しているかどうかを常に確認する必要があることを意味します-私はかつて、すべての科学者が箱ひげ図を知っていると仮定して大きな間違いを犯し、それを説明するのに1時間を無駄にしました。
私が見る最も一般的なエラーに基づいたガイドラインはここにあります(言及された他のすべての良い点に加えて)
Rグラフィックライブラリggplot2を見てください。詳細はWebページhttp://had.co.nz/ggplot2/にあります。このパッケージは、Tufteの原則、Clevelandのガイドライン、およびIhakaのカラーパッケージに従う非常に優れたデフォルトプロットを生成します。
色でプロットする場合、色盲の人は色だけで要素を区別するのが難しいかもしれないと考えてください。そう:
これらは素晴らしい提案です。http://biostat.mc.vanderbilt.edu/StatGraphCourseで多くの資料を集めました。製薬業界、学界、およびFDAの統計学者グループも、臨床試験および関連研究に非常に役立つリソースを作成しています。多くの新しい資料が1か月以内に公開されますが、多くはすでにそこにあります-http://www.ctspedia.org/do/view/CTSpedia/PageOneStatGraph
私のお気に入りのグラフィックブックは、William ClevelandによるElements of Graphing Dataです。
私の意見では、ソフトウェアに関しては、Rのggplot2およびラティスパッケージに勝るものはありません。Stataはいくつかの優れたグラフィックもサポートしています。
他の答えは定型的すぎて説得力がないので、より一般的な答えをさせてください。私はこの質問にしばらく苦労しました。私はこのプロセスを提供します:
私は「シンプルに保つ」などの全面的な主張に懐疑的です。それはどういう意味ですか?まあ、それは聴衆に依存します。一部の視聴者は、Tufteスタイルを使い果たします。しかし、一部の視聴者は、時々小さなチャートのジャンクを高く評価しています。散布図にうんざりしている人もいます。カラフルな背景が好きな人もいます。「審美的」な純度を妥協しても、彼らを少し関与させることはそれほど間違っていますか?決めるのはあなた次第です。
視聴者の反応は重要なフィードバックの一部になりますが、それだけではありません。あなたは自分の理解を測定する方法見つけた場合は前と後にプレゼンテーションを、あなたはあなたが作った影響を理解するために開始します。
「正しい」答えは、これらの種類の質問に依存します。
どのメディアを使用しますか?
静的プロットまたはインタラクティブプロットを作成していますか?
事前に定義されたストーリーを語ろうとしていますか(説明)、実験を奨励しようとしていますか(探索)。
聴衆に自分の結論をどの程度まで引き出したいですか?
視聴者にあなたのストーリーをどの程度フォローし、説得してもらいたいですか?
聴衆にあなたの調査結果にどの程度挑戦してもらいたいですか?
要約すると、メッセージ、対象者、および制約を考慮して、資料を意図的に設計します。
Tufteが言及したことを覚えているようですが、それは他の答えにはありません-それはマッピングです -つまり、あなたのグラフの位置、方向、サイズなどが現実を表すようにします。グラフに表示されるものは、現実の世界に表示されるはずです。大きいものは大きいはずです(エリアはエリアとボリュームボリュームを表す必要があることに注意してください。エリアごとにスカラー値を表そうとしないでください。非常に曖昧です!)。これは、関連する場合、色、形状などにも適用されます。
:興味深い例は、ここでは「スカートシリーズ」グラフである http://a-little-book-of-r-for-time-series.readthedocs.org/en/latest/src/timeseries.html。技術的には正しいですが、「より長い」スカートの長さはグラフ上で高い位置を占めていますが、実際にはかなり混乱しています。スカートの長さは上から始まり、下に行くためです(人間や木とは異なり、接地)。したがって、スカートの長さの増加は実際には低い値を表します。
skirts <- scan("http://robjhyndman.com/tsdldata/roberts/skirts.dat",skip=5)
skirtsseries <- ts(skirts,start=c(1866))
plot.ts(skirtsseries, ylim=c(max(skirts),min(skirts)))
いつものように、困難があります。たとえば、一般的に前進する時間を考慮し、少なくとも西では左から右に読むため、時系列グラフも通常、時間の経過とともに左から右に流れます。それでは、横方向に最もよく表されるもの(例:何かの東西の測定値)を経時的に表したい場合はどうなりますか?その場合、妥協し、上下に移動する時間を描写する必要があります(これは文化的な認識に依存しますが、私は推測します)、または横方向の変数をグラフの上下にマッピングすることを選択します。
それは、プロットが議論される方法に依存します。
たとえば、さまざまな場所からの発信者と行われるグループ会議のプロットを送信する場合、ExcelではなくPowerpointでそれらをまとめることを好むので、簡単に反転できます。
1対1のテクニカルコールの場合、クライアントがプロットを脇に移動して生データを表示できるように、Excelに何かを配置します。または、サイド回帰係数に沿ってセルにp値を入力できます。たとえば、
覚えておいてください:特にスライドショーやグループへのメール送信では、プロットは安価です。むしろ、同じグラフに異なるコホート(「男性と女性」など)を配置しようとする5つのプロットよりも、10の明確なプロットを作成します。