グラフのドットを接続する


8

方程式の積であるグラフが与えられると、方程式を解く点を有意義に計算でき、その結果、点を通る直線も計算できます。線は、その任意の点で、答えです。

しかし、「1時間あたりの車の数/駐車場」のような測定値についてはどうでしょう。各時間測定のドットを接続することは意味がありますか?それまでに何台の車があったかわからないので、これは私たちを誤った結果、または少なくとも誤解を招く結果に導くのではないでしょうか?

回答:


8

グラフ内のポイントを接続する理由はさまざまです。値のカテゴリを1つだけ表示している場合(つまり、線が1つしかない場合)、連続と不連続の規則に従うのが一般的です。ただし、x軸を横切るパターンの変化を簡単に追跡するために複数の線が必要な場合は、離散値またはカテゴリ値でも接続できます。ポイントは一貫したストーリーを作ることであり、ラインがストーリーをより理にかなった、または従いやすいものにする場合は、それを追加します。それを損なう場合は、それを削除します。

あなたの場合、x軸にロットごとのポイントと時間を表すグラフでは、ロットごとの時間を結ぶ線をプロットする傾向があります。また、時間単位での平均がありますが、x軸の値は間隔測定であり、理論的には連続です(すべての連続は間隔測定であると主張される可能性があります)。

バーに関しては、他のポスターが述べたように。私はほとんど常にそれらを避けます。通常、棒で埋められると考えられている種類のデータの場合でも、ポイントはより適切です。

また、駐車場が同じサイズでない限り、車の数が誤解を招く可能性があることも考慮してください。固定領域と典型的なバーのグラフは、各バーがスペース内のアイテムの同じ充填を等しく表していることを意味します。区画内の車の比率でその問題を部分的にしか解決しません。期間が1つしかない場合の代替策は、ロットのサイズを示す空のバーを用意して、車の数で埋めることです。しかし、複数のロットを示す場合、これは非常に複雑になります。ここに行くには、時間ごとに接続された塗りつぶしの割合と各ロットの線の折れ線グラフが最適です。


特に、2つ以上のデータセット(たとえば、3つの駐車場)を経時的に比較しようとしている場合は同意します。異なる色のドットを維持し、線のない直線を交換するのは難しいです。通常、線グラフが点を結ぶ線である場合、点は離散的であり、線のみである場合、連続データを反映していることは明らかです。
ウェイン、

線が別々のセットを区別するのに役立つことに同意しました。私は私の答えでこの点を実証しました。
Nick Stauner 2014年

1

私見、変更の正確なタイミングを最初に省略した人は誰でもnumber of cars、誤解を招く結果の最初の責任者です。この情報がある場合(エラーで測定された場合でも)はtime、適切な連続変数であり、必ずしもグループ化された連続変数(Anderson、1984年を参照)ではありません。hour本当に望めば、観測をベースのビンに自由にグループ化できます。その時点で、誤解を招く結果を導き出す責任を負います。それ以外の場合は、正確な到着時刻を保持することにより、連続number of cars time正確にグラフ化できます 。

とにかく、あなたがnumber of carsあたりで立ち往生していると仮定してhour、@ Johnに同意します。時間ごとの観測を結ぶ線を引く必要があります。各増分変更がいつ発生したかについての情報が不足している場合、グラフ化された情報の制限について説明しない限り、誰かを誤解させているとは言いがたいです。同様に、ビンを接続する線のない単純な棒グラフを使用して時間別データをグラフ化する場合、時間別観測間の変化が正確に描写されたとおりに発生すると主張していなくても、誰かを誤解させることはありません。一斉に。誰かが誤解している場合(おそらく十分に公開されている統計またはデータで発生する可能性があります)、特にデータと収集手順を十分に詳しく説明している場合は、それらを誤解させることはありません。これだけは難しいことではありません。

データとグラフの説明の基本的な明快さと完全さを考えると、ビンを接続するために線を引くことの不利はありません。あなたのビンを接続することの利点は、のためにこれらのラインを模倣途中でまともな方程式を描く:あなたは不利だと思うように見えるものを実際にはnumber of cars連続の関数としてtimeそれは離散、時間ごとの観測に基づいているにもかかわらず、。観測値間の直線を使用して、変化がhour一度にすべてではなく、それぞれで線形に発生するというかなり合理的な仮定を表すことができます。そのような仮定に基づいて、読者は適切な推測を行うことができminute、与えられたhourの測定後、次の自動車が到着または出発するのをこのかなり常識的な4ステップの手順で確認できます。

  1. ライン上のポイントを見つけます以前のの観測number of cars =1+hour
  2. この点から真下に線を引き、hour軸と交差する場所を見つけます
  3. 前の観測点から軸distance上のこの点のを測定しますhour
  4. distance ÷ distance between observations ×60= minuteの後にhour次の車の到着。

もちろん、次の車の到着を正確な秒まで推定することもできます。線を提供しないことで読者がこれを止めることはできません。線を引くことは、5つのステップの最初のステップになるだけです。したがって、誰かが実際にその間に何台の車があったかを知りたいのであれば...まあ、彼らは知ることができません。情報が利用できないためですが、彼らは推定することができます。彼らのプロセスから一歩踏み出せば、彼らは感謝するでしょう。

読者のためにこれを単純な直線で行うことは、変化が1時間ごとの観測間で線形に発生するという仮定、またはより否定的に述べられた、この仮定の不正確さに関心がないという快適さを意味します。不正確さを想像するのは難しくありません。まず、変化は必然的にの非線形のゼロ膨張関数として発生しtimeます。変更イベントは3値であるので、非線形です。車が到着するか、車が去るか、どちらも到着しません。車が到着したり、車から離れたりすることはありません。ほとんどの瞬間、車の到着や出発は見られないため、ゼロ膨張です。これはprobability、車が最も近い整数に到達するために任意の瞬間に到着または出発することを説明するものとして線を扱うことによって回避できます。

時間ごとの観測間の直線の背後にある仮定のさらに別の不正確さが残っています。変化率(probability上記の点で)は、ポイント間で別々に引かれた直線が示すよりも、時間の経過とともにスムーズに変化すると予想される場合があります。より数学的な用語では、number of carshour)関数の導関数をhours にわたって連続にすることができます。多項式関数をデータに当てはめることでこれを実行できる場合がありますが、目的が予測的なものである場合は、に注意してください。

ヒストグラムスタイルのバーを超える線のもう1つの利点(つまり、hour互いに「接触しない」バーのあるグラフだけでなく、隣接する値の中間の間隔がない)は、多項式lot変数から生じます。各ロットの個別の時系列を同じグラフに重ね合わせて比較を容易にすることができますlot。これにより、変数が興味深いかどうかを確認できます。ここにいくつかの構成されたデータを使ったデモンストレーションがあります:

McCownへの称賛

私はそれをバーと一貫して行う方法を理解しようとするつもりはありません。@ ChristianStade-Schuldtにお任せします;)公平を期すために、彼が提案したようにこれらのポイントを接続しない方が簡単ですが、線を追加すると、個別の時系列に対応するポイントを明確に区別できます。結局、それはまだ少し主観的なものになるので、自分で判断してください:

とにかく、自分の中で線を引いていることに気づきます。ところで、最初の図の線が正確なポイントの視覚的影響を損なうと感じた場合は、ポイントのサイズをいつでも増やしたり、形を変更したり、別の表に数値を表示したりできることを忘れないでください。

参照
アンダーソン、JA(1984)。回帰と順序付けられたカテゴリ変数。王立統計学会のジャーナルB、46、1–30。


1

実線は連続体を示します。平均をプロットする必要がある場合は、棒グラフまたは階段図の使用を検討します。個々のポイントをプロットすることも可能であり、平均が関係している場合は、必要に応じて標準偏差情報を追加できます。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.