グラフのy軸をゼロから開始するかどうかを決定する方法は?


45

「データに横たわる」1つの一般的な方法は、y軸のスケールを使用して、実際よりも重要な変更のように見せることです。

科学出版物や学生の研究室レポートを確認するとき、私はしばしばこの「データの可視化の罪」にイライラします(著者は意図せずコミットしますが、それでも誤解を招くプレゼンテーションになります)。

ただし、「y軸を常にゼロで開始する」ことは、難しいルールではありません。例えば、エドワード・タフトは指摘時系列的に、ベースラインが必ずしもゼロではないこと。

一般に、時系列では、ゼロ点ではなくデータを示すベースラインを使用します。データのプロットでゼロ点が合理的に発生する場合は、問題ありません。しかし、データライン自体で何が起こっているかを隠すことを犠牲にして、ゼロ点に到達しようとして多くの空の垂直スペースを費やさないでください。(この点については、本「統計と嘘をつく方法」は間違っています。)

例として、時系列にゼロ点が存在しない場合、あらゆる主要な科学研究出版物をご覧ください。科学者たちは、ゼロではなく自分のデータを表示したいと考えています。

データをコンテキスト化する衝動は良いものですが、コンテキストは空の垂直スペースがゼロに達することはありません。ゼロは、多くのデータセットでは発生しません。代わりに、コンテキストのために、より多くのデータを水平に表示してください!

私がレビューする論文で誤解を招くプレゼンテーションを指摘したいのですが、ゼロ軸の純粋主義者にはなりたくありません。

y軸をゼロから開始するタイミング、およびこれが不要または不適切な場合に対処するガイドラインはありますか?(特に学術研究の文脈で。)


3
0を含める(含まない)ことが誤解を招く可能性があるかどうかは、語られるストーリーに大きく依存すると考えています。
GUNG -復活モニカ

2
講演では、「非常に抑制されたゼロに注意してください」などのフレーズを使用して、誤解を招く可能性のある人物に誠実さをもたらすことができます。印刷物ではあまり満足していませんが、ピンチではそこでも使用できます。
dmckee

これをすべて回避するために、可能な限り箱ひげ図を使用しています。平均値とエラーバーを計算する必要はなく、貴重な情報(データ分布、広がり、歪度、範囲など)がすべて1つのプロットにまとめられています。さらに、生データを表示しています。
ステファン

@Stefan Boxプロットは確かに役立ちます。ただし、一部の教科書でさえANOVAを説明してから箱ひげ図を表示するのは奇妙です。そのためには、エラーバーでない場合、手段は確かに関連性があり、有益であるべきです。多様性にもよりますが、多くのボックスプロットは生データを表示するという非常に貧弱な仕事をします。しかし、例えばクォンタイルボックスプロットなど、役立つ拡張機能があります。ただし、このコンテキストでは、平均値とエラーバーを表示しても、がデータの範囲外にある場合、を表示することはありません。y=0
ニックコックス

@NickCoxコメントありがとうございます!ANOVAが行われた後、平均値とエラーバーを表示することはより理にかなっていることに同意します。ただし、分析を実行する前に、箱ひげ図はより有益であり、データがどのように見えるか、選択したANOVAが適切かどうかについての情報を提供します。たとえば、パラメトリックテストが選択されているが、データが必要な仮定を満たしていない場合、「データに横たわる」ことは既に発生している可能性があります。したがって、科学研究の読者としての私にとっては、提示された結果に関して自分の心を決めるために箱ひげ図を見るのが好きです。
ステファン

回答:


40
  • 理解に役立たない方法でグラフのスペースを使用しないでください。データを表示するにはスペースが必要です!

  • 科学的(工学、医学、社会、ビジネスなど)の判断と統計的判断を使用します。(クライアントまたは顧客でない場合は、現場の誰かと話をして、何が興味深いか重要であるか、できれば分析を委託している人のアイデアを得てください。)

  • ゼロとの比較が問題の中心である場合、または何らかの関心がある場合でも、軸にゼロを表示します。y

これらは3つの単純なルールです。(ときどき両者の間の緊張を排除するものはありません。)

以下に簡単な例を示しますが、3つのポイントすべてが生じます。摂氏、華氏、またはケルビンで患者の体温を測定します。ゼロの温度を表示することを主張することは、どのような意味で役立つのですか、それとも論理的でさえありますか?それ以外の場合、医学的または生理学的に重要な重要な情報も隠されます。

これがプレゼンテーションの実話です。研究者は、インドのさまざまな州および連合地域の性比に関するデータを示していました。グラフィックは、すべてのバーがゼロから始まる棒グラフでした。かなりのばらつきがあるにもかかわらず、すべてのバーは同じ長さに近かった。それは正しいことでしたが、興味深い話は、エリアが類似しているにもかかわらず異なっていたということであり、違いにもかかわらず類似しているということではありませんでした。男性と女性(1または100人の女性/ 100人の男性)の間のパリティがはるかに自然な参照レベルであることを提案しました。(私は、全国平均などの全体的なレベルを参照として使用することもできます。)この小さな話を聞いた統計の人々でさえ、「いいえ、バーは常にゼロから始めるべきです」と時々答えました。そのような場合、それは無関係な教義に勝るものではありません。

棒グラフに言及すると、使用されるグラフの種類も重要であることが指摘されます。体温の場合、すべてのデータを含めるために便宜上35〜40 Cの軸範囲が選択され、軸が35で「開始」されるとます。データ。しかし、ここで問題となるのは、不適切に選択された軸範囲ではなく、グラフ要素の不適切な選択です。yy

一般的な種類のプロット、特に一部の生物学および医学では、ゼロから始まる太い棒で平均値またはその他の要約を示し、細い棒で不確実性を示す標準誤差または標準偏差ベースの間隔を示します。このような起爆剤またはダイナマイトプロットは、不承認者から呼ばれているように、常にゼロを表示する必要があるという主張のために人気があります。最終的な効果は、関心や実用性に欠けていることが多いゼロとの比較を強調することです。

ゼロを表示したいだけでなく、スケールが中断されたことを示すスケールブレークを追加したい人もいます。ファッションが変わり、テクノロジーが変わります。数十年前、研究者が独自のグラフを描いたり、技術者にタスクを委任したとき、これを手作業で行うように依頼する方が簡単でした。現在、グラフィックスプログラムはスケールブレークをサポートしていないことが多く、これは損失ではないと思います。たとえそれが行われたとしても、それはグラフィックの領域の中程度の部分を浪費する可能性がある面倒な追加です。

誰も軸について同じルールを主張しないことに注意してください。何故なの?前世紀程度に気候や経済の変動を示した場合、スケールがBC / CE境界またはその他の起源から始まるべきであると言われるのは奇妙です。x

前述の3つに加えて適用される0番目のルールが当然あります。

  • 何をするにしても、非常に明確にしてください。軸に一貫した情報のラベルを付けます。次に、慎重な読者があなたが何をしたかを見ると信じること。

したがって、この点で私はエドワード・タフテに強く同意し、ダレル・ハフには同意しません。

2016年5月9日編集:

すべてのチャートに常に0ベースラインを含めるのではなく、論理的で意味のあるベースラインを代わりに使用します

カイロ、2016年 。真実の芸術:コミュニケーションのためのデータ、チャート、地図。 カリフォルニア州サンフランシスコ:New Riders、p.136。


7
それとは別に、データがバーで表されている場合、バーが面積を示すという理由で、ゼロから始まらないと誤解を招くという理由で、人々は「ゼロから開始」に独断的に固執する傾向があります。上のクリーブランドドットプロットとにかく、多くの場合、より適切な視覚化したものです- -がゼロで開始するためにはそのような説得力のある引数は思わない、と人々は、彼らが開始する場所について柔軟であることがより喜んでいるようです。
シルバーフィッシュ

4
素晴らしい答え。この質問は、不適切な軸範囲を一貫して使用している(データのわずかな変動を強調している)論文をレビューする文脈で尋ねました。この答えは、私が本当にイライラしているのは、データの理解と解釈における(統計的および工学的)判断の欠如であることに気づきました-軸範囲について不平を言うよりもレビューでコメントする方がはるかに建設的なことです。
ff524

4
軸をゼロから開始することに関する規則は、比率である連続変数についてのみ考えるのが理にかなっているため、ゼロには実際の意味があります。重み0は重みなしです。しかし、CまたはFの温度はゼロに任意の値を使用するため、そこで軸を開始することを考えても意味がありません。
ハーベイモトゥルスキー

2
0 C から始まるバーは、水の氷点より温度を示します。私は気候学でそれを見たことがあり、それは物理的な意味を持っています。当然、比率尺度ではゼロが自然であり、それ以外ではarbitrary意的であるというより一般的な点に同意します。
ニックコックス

3
いいですが、「判断」のポイントは聴衆に依存することを指摘したいと思います(聴衆は常に重要です!)。技術的な聴衆は軸を読み、その意味を理解します。素人人口の特定の割合は、軸ラベルを明確に無視し、スケールに関する潜在的に誤った仮定の下でグラフの形状から結論を導き出します。グラフが一般の読者を対象としている場合、それを判断に組み込む必要があります。
dmckee 16
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.