方程式の積であるグラフが与えられると、方程式を解く点を有意義に計算でき、その結果、点を通る直線も計算できます。線は、その任意の点で、答えです。
しかし、「1時間あたりの車の数/駐車場」のような測定値についてはどうでしょう。各時間測定のドットを接続することは意味がありますか?それまでに何台の車があったかわからないので、これは私たちを誤った結果、または少なくとも誤解を招く結果に導くのではないでしょうか?
方程式の積であるグラフが与えられると、方程式を解く点を有意義に計算でき、その結果、点を通る直線も計算できます。線は、その任意の点で、答えです。
しかし、「1時間あたりの車の数/駐車場」のような測定値についてはどうでしょう。各時間測定のドットを接続することは意味がありますか?それまでに何台の車があったかわからないので、これは私たちを誤った結果、または少なくとも誤解を招く結果に導くのではないでしょうか?
回答:
グラフ内のポイントを接続する理由はさまざまです。値のカテゴリを1つだけ表示している場合(つまり、線が1つしかない場合)、連続と不連続の規則に従うのが一般的です。ただし、x軸を横切るパターンの変化を簡単に追跡するために複数の線が必要な場合は、離散値またはカテゴリ値でも接続できます。ポイントは一貫したストーリーを作ることであり、ラインがストーリーをより理にかなった、または従いやすいものにする場合は、それを追加します。それを損なう場合は、それを削除します。
あなたの場合、x軸にロットごとのポイントと時間を表すグラフでは、ロットごとの時間を結ぶ線をプロットする傾向があります。また、時間単位での平均がありますが、x軸の値は間隔測定であり、理論的には連続です(すべての連続は間隔測定であると主張される可能性があります)。
バーに関しては、他のポスターが述べたように。私はほとんど常にそれらを避けます。通常、棒で埋められると考えられている種類のデータの場合でも、ポイントはより適切です。
また、駐車場が同じサイズでない限り、車の数が誤解を招く可能性があることも考慮してください。固定領域と典型的なバーのグラフは、各バーがスペース内のアイテムの同じ充填を等しく表していることを意味します。区画内の車の比率でその問題を部分的にしか解決しません。期間が1つしかない場合の代替策は、ロットのサイズを示す空のバーを用意して、車の数で埋めることです。しかし、複数のロットを示す場合、これは非常に複雑になります。ここに行くには、時間ごとに接続された塗りつぶしの割合と各ロットの線の折れ線グラフが最適です。
私見、変更の正確なタイミングを最初に省略した人は誰でもnumber of cars
、誤解を招く結果の最初の責任者です。この情報がある場合(エラーで測定された場合でも)はtime
、適切な連続変数であり、必ずしもグループ化された連続変数(Anderson、1984年を参照)ではありません。hour
本当に望めば、観測をベースのビンに自由にグループ化できます。その時点で、誤解を招く結果を導き出す責任を負います。それ以外の場合は、正確な到着時刻を保持することにより、連続number of cars
時間の時系列をtime
正確にグラフ化できます 。
とにかく、あなたがnumber of cars
あたりで立ち往生していると仮定してhour
、@ Johnに同意します。時間ごとの観測を結ぶ線を引く必要があります。各増分変更がいつ発生したかについての情報が不足している場合、グラフ化された情報の制限について説明しない限り、誰かを誤解させているとは言いがたいです。同様に、ビンを接続する線のない単純な棒グラフを使用して時間別データをグラフ化する場合、時間別観測間の変化が正確に描写されたとおりに発生すると主張していなくても、誰かを誤解させることはありません。一斉に。誰かが誤解している場合(おそらく十分に公開されている統計またはデータで発生する可能性があります)、特にデータと収集手順を十分に詳しく説明している場合は、それらを誤解させることはありません。これだけは難しいことではありません。
データとグラフの説明の基本的な明快さと完全さを考えると、ビンを接続するために線を引くことの不利はありません。あなたのビンを接続することの利点は、のためにこれらのラインを模倣途中でまともな方程式を描く:あなたは不利だと思うように見えるものを実際にはnumber of cars
連続の関数としてtime
それは離散、時間ごとの観測に基づいているにもかかわらず、。観測値間の直線を使用して、変化がhour
一度にすべてではなく、それぞれで線形に発生するというかなり合理的な仮定を表すことができます。そのような仮定に基づいて、読者は適切な推測を行うことができminute
、与えられたhour
の測定後、次の自動車が到着または出発するのをこのかなり常識的な4ステップの手順で確認できます。
number of cars
hour
hour
軸と交差する場所を見つけますdistance
上のこの点のを測定しますhour
distance
distance between observations
minute
の後にhour
次の車の到着。もちろん、次の車の到着を正確な秒まで推定することもできます。線を提供しないことで読者がこれを止めることはできません。線を引くことは、5つのステップの最初のステップになるだけです。したがって、誰かが実際にその間に何台の車があったかを知りたいのであれば...まあ、彼らは知ることができません。情報が利用できないためですが、彼らは推定することができます。彼らのプロセスから一歩踏み出せば、彼らは感謝するでしょう。
読者のためにこれを単純な直線で行うことは、変化が1時間ごとの観測間で線形に発生するという仮定、またはより否定的に述べられた、この仮定の不正確さに関心がないという快適さを意味します。不正確さを想像するのは難しくありません。まず、変化は必然的にの非線形のゼロ膨張関数として発生しtime
ます。変更イベントは3値であるので、非線形です。車が到着するか、車が去るか、どちらも到着しません。車が到着したり、車から離れたりすることはありません。ほとんどの瞬間、車の到着や出発は見られないため、ゼロ膨張です。これはprobability
、車が最も近い整数に到達するために任意の瞬間に到着または出発することを説明するものとして線を扱うことによって回避できます。
時間ごとの観測間の直線の背後にある仮定のさらに別の不正確さが残っています。変化率(probability
上記の点で)は、ポイント間で別々に引かれた直線が示すよりも、時間の経過とともにスムーズに変化すると予想される場合があります。より数学的な用語では、number of cars
(hour
)関数の導関数をhour
s にわたって連続にすることができます。多項式関数をデータに当てはめることでこれを実行できる場合がありますが、目的が予測的なものである場合は、過剰適合に注意してください。
ヒストグラムスタイルのバーを超える線のもう1つの利点(つまり、hour
互いに「接触しない」バーのあるグラフだけでなく、隣接する値の中間の間隔がない)は、多項式lot
変数から生じます。各ロットの個別の時系列を同じグラフに重ね合わせて比較を容易にすることができますlot
。これにより、変数が興味深いかどうかを確認できます。ここにいくつかの構成されたデータを使ったデモンストレーションがあります:
私はそれをバーと一貫して行う方法を理解しようとするつもりはありません。@ ChristianStade-Schuldtにお任せします;)公平を期すために、彼が提案したようにこれらのポイントを接続しない方が簡単ですが、線を追加すると、個別の時系列に対応するポイントを明確に区別できます。結局、それはまだ少し主観的なものになるので、自分で判断してください:
とにかく、自分の中で線を引いていることに気づきます。ところで、最初の図の線が正確なポイントの視覚的影響を損なうと感じた場合は、ポイントのサイズをいつでも増やしたり、形を変更したり、別の表に数値を表示したりできることを忘れないでください。
参照
アンダーソン、JA(1984)。回帰と順序付けられたカテゴリ変数。王立統計学会のジャーナルB、46、1–30。
それらは離散値であるため、それらのポイントを接続しません。データポイントの量に応じて、縦棒/棒グラフまたはポイントのみを使用できます。