データの視覚化について私のアドバイザーと議論があります。彼は実験結果を表すとき、値は下の画像に示されているように「マーカー」のみでプロットされるべきであると主張します。曲線は「モデル」のみを表す必要があります
一方、次の2番目の画像に示すように、読みやすくするために、多くの場合、曲線は不要であると思います。
私は間違っているのですか、それとも教授ですか?後者の場合は、彼にこれを説明するためにどうしたらいいですか。
データの視覚化について私のアドバイザーと議論があります。彼は実験結果を表すとき、値は下の画像に示されているように「マーカー」のみでプロットされるべきであると主張します。曲線は「モデル」のみを表す必要があります
一方、次の2番目の画像に示すように、読みやすくするために、多くの場合、曲線は不要であると思います。
私は間違っているのですか、それとも教授ですか?後者の場合は、彼にこれを説明するためにどうしたらいいですか。
回答:
私はこの経験則が好きです:
目を導くために線が必要な場合(つまり、線がないとはっきりと見えない傾向を示すため)、線を配置しないでください。
人間はパターンの認識が非常に得意です(既存の傾向を見逃すよりも、存在しない傾向を確認するほうが得策です)。線なしでトレンドを取得できない場合は、データセットに決定的にトレンドを表示できないことを確信できます。
2番目のグラフについて言えば、測定点の不確かさの唯一の指標は、700°CでのC:O 1.2の2つの赤い正方形です。これら二つの広がりは私が受け入れないことを意味します例えば
与えられた非常に正当な理由なし。ただし、これもモデルになります。
編集:イワンのコメントへの回答:
私は化学者であり、エラーのない測定はありません-許容できるものは実験と機器に依存します。
この回答は、実験的なエラーを表示することに対するものではなく、それを表示して考慮に入れるためのものです。
私の推論の背後にある考え方は、グラフは正確に1つの繰り返し測定を示しているため、モデルがフィットする必要がある複雑さ(つまり、水平線、直線、二次式など)である場合、これにより測定のアイデアが得られますエラー。あなたの場合、これは、それが二次であるべきであると示唆するハードモデル(例えば、熱力学または運動方程式)があったとしても、意味のある二次(スプライン)に適合できないことを意味します-あなたは十分なデータを持っていません。
これを説明するには:
df <-data.frame (T = c ( 700, 700, 800, 900, 700, 800, 900, 700, 800, 900),
C.to.O = factor (c ( 1.2, 1.2, 1.2, 1.2, 2 , 2 , 2 , 3.6, 3.6, 3.6)),
tar = c (21.5, 18.5, 19.5, 19, 15.5, 15 , 6 , 16.5, 9, 9))
これは、各C:O比率の95%信頼区間と線形近似です。
ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () +
stat_smooth (method = "lm") +
facet_wrap (~C.to.O)
C:O比が高い場合、信頼区間は0をはるかに下回る範囲にあることに注意してください。これは、線形モデルの暗黙の仮定が誤っていることを意味します。ただし、より高いC:Oコンテンツの線形モデルは既にオーバーフィットしていると結論付けることができます。
したがって、ステップバックして定数値のみを適合させます(つまり、T依存性はありません)。
ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () +
stat_smooth (method = "lm", formula = y ~ 1) +
facet_wrap (~C.to.O)
補足として、C:Oに依存しないモデルを作成します。
ggplot (df, aes (x = T, y = tar)) + geom_point (aes (col = C.to.O)) +
stat_smooth (method = "lm", formula = y ~ x)
それでも、信頼区間は水平またはわずかに上昇するラインをカバーします。
続けて、たとえば3つのC:O比率に対して異なるオフセットを許可するが、同じ勾配を使用してみることができます。
ただし、すでにいくつかの測定で状況が大幅に改善されます。C:O = 1:1の信頼区間がどれだけ狭いかに注意してください。3つではなく4つの測定があります。
結論:あなたが私が懐疑的である結論の私のポイントを比較すると、彼らはいくつかの利用可能なポイントを読みすぎていました!
JeffEが言うように:ポイントはデータです。一般的に、曲線をできるだけ追加しないことをお勧めします。曲線を追加する理由の1つは、ポイントとポイント間の傾向を読みやすくすることで、グラフが見やすくなることです。これは、データポイントが少ない場合に特に当てはまります。
ただし、スパースデータを表示する方法は他にもあり、散布図よりも優れている場合があります。1つの可能性は、さまざまな棒が単一のポイントよりもはるかに目立つ棒グラフです。カラーコード(図に既に示したものと同様)は、各データ系列の傾向を確認するのに役立ちます(または、データ系列を分割して、小さな個別の棒グラフで並べて表示できます)。
最後に、シンボルの間に何らかの行を追加したい場合、2つのケースがあります。
特定のモデルがデータ(線形、調和など)に対して有効であると予想される場合は、データをモデルに適合させ、テキストでモデルを説明し、データとモデルの合意についてコメントする必要があります。
データの妥当なモデルがない場合は、グラフに追加の仮定を含めないでください。特に、これは、海峡線を除いて、ポイント間にいかなるタイプの線も含めるべきではないことを意味します。Excel(およびその他のソフトウェア)が描画できる「スプラインフィット」補間はうそです。データが特定の数学モデルに従う正当な理由はないので、直線セグメントに固執する必要があります。
さらに、その場合は、図のキャプションのどこかに免責事項を追加すると便利です。たとえば、「線は目の目安にすぎません」などです。
明示的なモデルを提案していなくても、何らかのガイドが必要な場合があると思います。私のルールは、ペストのような曲線を避け、一連の連続する点の間の区分的な直線に固執することです。
まず、この仮定は読者にとってより明白です。また、この急上昇は、データでサポートされていない傾向を読者が想定しないようにするのに優れています。仮にあったとしても、これはノイズと外れ値のみを強調します。
私が注意していることは、スプライン、2次関数、回帰などの大まかな(厳密ではなく、明示的ではない)使用です。非常に頻繁に、これにより、何もない傾向があるように見えます。虐待の良い例は、@ Ivanが描いた曲線です。3つのデータポイントでは、基礎となるモデルの最大値や最小値は明白ではないと思います。