実験データの表現


9

データの視覚化について私のアドバイザーと議論があります。彼は実験結果を表すとき、値は下の画像に示されているように「マーカー」のみでプロットされるべきであると主張します。曲線は「モデル」のみを表す必要があります

Markers.png

一方、次の2番目の画像に示すように、読みやすくするために、多くの場合、曲線は不要であると思います。

Lines.png

私は間違っているのですか、それとも教授ですか?後者の場合は、彼にこれを説明するためにどうしたらいいですか。


5
ポイントはデータです。ポイントにフィットする曲線はデータではありません。したがって、データを表示することが目的の場合...

3
JeffEが言うように。さらに、明示的であるために:あなたがプロットされた曲線があり、それらを描画するとき、あなたが特定の形状を想定し、そしてあなたは、この形状のために、いくつかの理由があったので、モデル。この推論は特定のモデルに基づいています。
gerrit

1
移行リクエストを送信しました。これは実際にはクロスバリデーションされたものではなく、ここに属しています。

2
CrossValidatedで話題になっているかもしれませんが、間違いなくここでも話題になっています。移行は、ここでトピックから外れている場合にのみ考慮する必要があります(2つのサイトでトピックから外れる質問がありますが、問題ありません)。それは有効な答えのある本当の質問であり、多くの学者にとって間違いなく関連しています。

2
2番目のグラフは疑わしいです。直線でポイントを結合した場合、(おそらく)視覚的にわかりやすくするための引数があります。しかし、曲線を使用すると、これらの温度での実験データがない場合でも、青い線のピークは740°にあり、紫色の線の最小値は840°であると主張しています。測定データの外に最小値/最大値を導入することは、危険信号です。
Darren Cook

回答:


10

私はこの経験則が好きです:

目を導くために線が必要な場合(つまり、線がないとはっきりと見えない傾向を示すため)、線を配置しないでください。

人間はパターンの認識が非常に得意です(既存の傾向を見逃すよりも、存在しない傾向を確認するほうが得策です)。線なしでトレンドを取得できない場合は、データセットに決定的にトレンドを表示できないことを確信できます。

2番目のグラフについて言えば、測定点の不確かさの唯一の指標は、700°CでのC:O 1.2の2つの赤い正方形です。これら二つの広がりは私が受け入れないことを意味します例えば

  • C:O 1.2にはまったく傾向があること
  • 2.0と3.6の間に違いがあること
  • 確かに、曲線モデルはデータに適合しすぎています。

与えられた非常に正当な理由なし。ただし、これもモデルになります。


編集:イワンのコメントへの回答:

私は化学者であり、エラーのない測定はありません-許容できるものは実験と機器に依存します。

この回答は、実験的なエラーを表示することに対するものではなく、それを表示して考慮に入れるためのものです。

私の推論の背後にある考え方は、グラフは正確に1つの繰り返し測定を示しているため、モデルがフィットする必要がある複雑さ(つまり、水平線、直線、二次式など)である場合、これにより測定のアイデアが得られますエラー。あなたの場合、これは、それが二次であるべきであると示唆するハードモデル(例えば、熱力学または運動方程式)があったとしても、意味のある二次(スプライン)に適合できないことを意味します-あなたは十分なデータを持っていません。

これを説明するには:

df <-data.frame (T      =         c ( 700,  700,  800, 900,  700, 800, 900, 700, 800, 900), 
                 C.to.O = factor (c ( 1.2,  1.2,  1.2, 1.2,  2  , 2  , 2  , 3.6, 3.6, 3.6)),
                 tar    =         c (21.5, 18.5, 19.5, 19,  15.5, 15 , 6  , 16.5, 9, 9))

これは、各C:O比率の95%信頼区間と線形近似です。

ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () + 
    stat_smooth (method = "lm") + 
    facet_wrap (~C.to.O)

線形モデル

C:O比が高い場合、信頼区間は0をはるかに下回る範囲にあることに注意してください。これは、線形モデルの暗黙の仮定が誤っていることを意味します。ただし、より高いC:Oコンテンツの線形モデルは既にオーバーフィットしていると結論付けることができます。

したがって、ステップバックして定数値のみを適合させます(つまり、T依存性はありません)。

ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () + 
    stat_smooth (method = "lm", formula = y ~ 1) + 
    facet_wrap (~C.to.O) 

T依存なし

補足として、C:Oに依存しないモデルを作成します。

ggplot (df, aes (x = T, y = tar)) + geom_point (aes (col = C.to.O)) + 
    stat_smooth (method = "lm", formula = y ~ x) 

C:O依存なし

それでも、信頼区間は水平またはわずかに上昇するラインをカバーします。

続けて、たとえば3つのC:O比率に対して異なるオフセットを許可するが、同じ勾配を使用してみることができます。

ただし、すでにいくつかの測定で状況が大幅に改善されます。C:O = 1:1の信頼区間がどれだけ狭いかに注意してください。3つではなく4つの測定があります。

結論:あなたが私が懐疑的である結論の私のポイントを比較すると、彼らはいくつかの利用可能なポイントを読みすぎていました!


あなたは非常に良い点を作ります。ただし、エンジニアリングでは、実験誤差(不確実性)が非常に一般的であり、3〜5%の相対誤差が許容できると想定されています。それでも、MAX、MIN、AVGの結果を表示する必要があります。だから私の場合、マーカーは四肢であり、線は平均です。
Ivan P.

非常に優れた非常に役立つ例(Rに興味を持ってもらいました)。したがって、もちろん、正しいことは、より多くのデータポイントを取得することです。
Ivan P.

12

JeffEが言うように:ポイントデータです。一般的に、曲線をできるだけ追加しないことをお勧めします。曲線を追加する理由の1つは、ポイントとポイント間の傾向を読みやすくすることで、グラフが見やすくなることです。これは、データポイントが少ない場合に特に当てはまります。

ただし、スパースデータを表示する方法は他にもあり、散布図よりも優れている場合があります。1つの可能性は、さまざまな棒が単一のポイントよりもはるかに目立つ棒グラフです。カラーコード(図に既に示したものと同様)は、各データ系列の傾向を確認するのに役立ちます(または、データ系列を分割して、小さな個別の棒グラフで並べて表示できます)。

最後に、シンボルの間に何らかの行を追加したい場合、2つのケースがあります。

  1. 特定のモデルがデータ(線形、調和など)に対して有効であると予想される場合は、データをモデルに適合させ、テキストでモデルを説明し、データとモデルの合意についてコメントする必要があります。

  2. データの妥当なモデルがない場合は、グラフに追加の仮定含めないでください。特に、これは、海峡線を除いて、ポイント間にいかなるタイプの線も含めるべきではないことを意味します。Excel(およびその他のソフトウェア)が描画できる「スプラインフィット」補間はうそです。データが特定の数学モデルに従う正当な理由はないので、直線セグメントに固執する必要があります。

    さらに、その場合は、図のキャプションのどこかに免責事項を追加すると便利です。たとえば、「線は目の目安にすぎません」などです。


2
これは、優れたアドバイスから、バーの方が適切であるというコメントを除いたものです。これに関連する同様の議論については、「棒グラフを処理するための代替グラフィックス」を参照してください。クラスター化された棒グラフとしてOPによって一覧表示されるプロットを想像してください。温度範囲全体の傾向を視覚化することは非常に困難です。ポイントをより見やすくする方法は、x軸に沿ってポイントを揺らすことです。クリーブランドの研究では、とにかくバーよりもポイントを優先するように提案しています。
アンディW

@Andy W、「x軸に沿ってジッターする」とはどういう意味ですか?
Ivan P.

1
@IvanP。、つまり、横座標の特定の値に固定されたポイントを作成する代わりに、それらのポイントを互いに右または左に少し移動して、ポイントが互いに重なり合わないようにします。グラフの残りの部分から、x軸のグループの正確な値を実際に参照していることは明らかであり、わずかなジッターは値間の傾向の視覚化に影響を与えないはずです。
アンディW

6

1-あなたの教授は有効なポイントを作っています。

2-あなたのプロットは間違いなく私見を読みやすくしません。

3-私の理解から、これは実際にこの種の質問をするのに適切なフォーラムではなく、相互検証で質問する必要があります。


私は読みやすさに問題があり、改善のための任意の提案は非常に歓迎されている場所を知って興味を持って
イワンP.

1

ポイントが非常に密集している場合は特に、ポイントを結合することが理にかなっています。

そして、補間することは意味があるかもしれません(例えば、スプラインで)。ただし、次数1のスプラインよりも高度なものである場合(ポイントを結合しているだけであることは明白です)、それを言及する必要があります。

ただし、数ポイントまたは12ポイントの場合、そうではありません。マーカーを付けて、ポイントをそのままにしておきます。直線(または別の曲線)をフィットしたい場合、それはモデルです。追加は可能ですが、明示的にする必要があります-たとえば、「線は線形回帰フィットを表します」。


0

明示的なモデルを提案していなくても、何らかのガイドが必要な場合があると思います。私のルールは、ペストのような曲線を避け、一連の連続する点の間の区分的な直線に固執することです。

まず、この仮定は読者にとってより明白です。また、この急上昇は、データでサポートされていない傾向を読者が想定しないようにするのに優れています。仮にあったとしても、これはノイズと外れ値のみを強調します。

私が注意していることは、スプライン、2次関数、回帰などの大まかな(厳密ではなく、明示的ではない)使用です。非常に頻繁に、これにより、何もない傾向があるように見えます。虐待の良い例は、@ Ivanが描いた曲線です。3つのデータポイントでは、基礎となるモデルの最大値や最小値は明白ではないと思います。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.