離散データにラインプロットを使用するのは間違っていますか?


12

離散データセットが折れ線グラフとしてプロットされるのをよく見ましたが、線が離散データセットでは意味のない測定間隔の間の値を推測することがあります。したがって、離散データに線プロットを使用するのは間違っていますか?

例として、2つの時系列データセットを取得します。1つは連続(朝、毎日測定される体重)と1つは離散(1日あたりのドーナツの数)です。最初のデータセットは折れ線グラフであることが理にかなっています。これは、午後の体重が朝と朝の体重に関連すると推測するのが妥当だからです。ただし、ドーナツの数が線グラフで表される場合、ドット間の線はその線から意味を推測できません。

編集

ここで別の例です:で創業プロット以来連邦毎時最低賃金http://mste.illinois.edu/courses/ci330ms/youtsey/lineinfo.html

誤解しない限り、最低賃金の変化は離散的であるため、任意に選択した時間を調べて、点を結ぶ線を使用してポイントで最低賃金を確立することはできません。


3
(+1)時間給の最低賃金の例は優れています。質問の言い回しは、良い答えを示唆しています。つまり、グラフ上の接続点は、読者が不正確な(または完全に無効な)補間を行う場合、有効ではないということです。離散性と不連続性を区別することは、さらなる分析に役立ちます。ドーナツの消費は不連続であり、最低賃金は不連続です。それぞれが異なる形式のプロットに値します。
whuber

離散データの散布図が折れ線グラフ上で誤解を招くようなプロットがあります。一連のイベントが必要な場合(ヒステリシス)、または2つのレベル間で振動が発生し、状態の変化とその場所を追跡する必要がある場合の例です。そのため、補間を意味するためにラインプロットを使用しないでください。ただし、必要に応じてそれらをガイダンスとして使用してください。単純な選択ルールを作成するのは簡単ではありませんが、データとモデルを考慮する必要があります。
ウィルベル14年

1
興味深い質問です!ありがとう。私は、部分的に離散モデルと部分的に測定されたデータから生じる多くの時間関連データを扱っています。不連続データ(ある意味では連続している可能性がありますが、まだ単一のポイント間に機能がなく、単にあると仮定することはできません)と連続データに通常のものにステップ付きラインプロットを使用するオプションはどうですか?それは私がそれに対処する方法です..
Cord Kaldemeyer

@CordKaldemeyerのコメントに感謝-チャートタイプ「ステップラインプロット」は知りませんでしたが、それは間違いなく私が探しているものです。また、Excelで階段状ラインプロットを行う際に役立つチュートリアルを見つけました。trumpexcel.com
chart

@ user1379351:助けてくれてうれしい!
コードカルデマイヤー

回答:


9

接続されたラインプロットは、単一の解釈に限定するにはあまりにも有用であることが証明されています。いくつかの顕著な使用法:

  • 補間値。両方の変数が連続的であり、意味のある解釈として、ラインに沿ったすべての補間ポイントに言及する場合。
  • 変更率。中間の値が意味をなさない場合でも、各線分の勾配は変化率を適切に表しています。この解釈のために、XとYの値は適切に間隔を空けなければならないことに注意してください。これは、引用した賃金プロットの場合ではありません。
  • プロファイルの比較。小さい倍数またはオーバーレイされたメジャーを比較する場合、線はカテゴリカルファクターに対しても役立ちます。この場合、線は限定されたパターン認識のために応答のグループを接続するのに役立ちます。次に、ラベルを読みやすくするために、Xの代わりにY軸に係数を指定したpeltiertech.comの例を示します。

ここに画像の説明を入力してください


1
確かに、計算をまったく使用できないため、2番目と3番目のグラフは最初のものより厳密に強力ではありません。
Milind R

5

さて、ドーナツは体重に関連している可能性があります:-)

私はあなたの主張を見ていますが、この例はそれほど悪くないと思います。なぜなら、時間は(線が指すものである水平軸上で)連続的だからです。線の意味は、私にとっては、1日の時間ごとに特定の数のドーナツを食べたことではなく、1日あたりのドーナツの数が一定の方法で変化することです。したがって、ラインに滑らかな黄土のようなものを追加するかもしれませんが、それは理にかなっています。ドーナツは1時間ごと、または1分ごとに食べることを考えるのが少なくとも合理的です(ただし、1日あたりのカウントが高い変数の方が賢明です)

さらに心配なのは、水平軸が離散的である場合(特に公称軸である場合)に、線が引かれている場合です。これは本当に意味がありません。たとえば、(たとえば)米国のさまざまな地域の(たとえば)居住者の間でオバマの投票率を調べている場合、北東と中西の間に線を引くことは意味がありません。特に、リージョンの順序は任意ですが、順序を変更すると行が変更されるためです。しかし、私はこのようなグラフを見てきました。


1
折れ線グラフの悪用がはるかに多いことには絶対に同意します。ドットをつなげず、データが存在しないことを意味しないため、よりスムーズなアプローチが好きです。しかし、それはドーナツ消費の心配な傾向を強調するのに役立ちます。ありがとう!
user1379351 14年

3
1つの変数(ドーナツ消費)を別の変数に置き換えることを提案しているようです。つまり、ドーナツ消費密度(単位時間あたりのドーナツ)。これは、特に2次元分析(人口密度のマップなど)で頻繁に行われ、非常に効果的です。グラフィカルに表示されます。
whuber

2
@whuberそれは公正な点です。その行はその置き換えを行っているようです。その置換を行わないグラフは、ドットで接続されていない可能性がありますが、ドーナツ消費が特定のポイントにあることを少なくとも示唆しているようです。そのため、ドーナツが消費された瞬間に時間を連続してレンダリングし、点を付けます。
ピーターフロム-モニカの復職
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.