タスクを完了するために、14回の個別の小さなデータセットがあります。しかし、データをグラフ化するために使用する適切なグラフを見つけることが困難です。サンプルが大きかった場合、ボックスプロットまたはヒストグラムを使用しますが、サンプルが非常に小さいときにこの場合に使用するのが適切かどうかはわかりません。
更新:時間は5.2、3.9、5.6、4.2、3.8、4.1、6.0、5.6、4.4、4.5、4.9、4.5、4.9、4.2です
タスクを完了するために、14回の個別の小さなデータセットがあります。しかし、データをグラフ化するために使用する適切なグラフを見つけることが困難です。サンプルが大きかった場合、ボックスプロットまたはヒストグラムを使用しますが、サンプルが非常に小さいときにこの場合に使用するのが適切かどうかはわかりません。
更新:時間は5.2、3.9、5.6、4.2、3.8、4.1、6.0、5.6、4.4、4.5、4.9、4.5、4.9、4.2です
回答:
ここでの基本原則は、個々の値をすべて表示できることであると考えています。詳細が明らかに興味深くも有用でもない場合でも、それを表示しない理由や、バーが1つまたは2つの値のみを表すヒストグラムを(たとえば)デコードするよう読者に強制する理由はありません。
ここで小さな複合材料を提供します。左上のドットまたはストリッププロット(同じアイデアに少なくとも20個の名前が使用されている)が水平に表示され、右上に同じアイデアが垂直に表示されています。同じ値のインスタンスは、スタックによって照合されます。
一番下は、Parzenの意味でのクォンタイルボックスプロットで、暗黙の水平スケールは累積確率(一般的な専門用語でのプロット位置)であり、従来の中央値および四分位数ボックスは(原則として)半分になるように描画できます値は常に通知されるようにボックス内にあり、値の半分は外部にあります。ここの余分な水平線は平均を表しています。一部の人々は、ボックスプロットに追加のポイントまたはマーカーシンボルとして手段を追加します。データ自体を表示することと衝突する可能性があることがわかり、余分な行が好きです。中央値の線と平均の線が一致しているように見える場合は、何をすべきかを考える必要があります。ほとんどの場合、平均値と中央値は明らかに異なります。
おそらく、測定単位をグラフ上で明示的にすることが標準ですが、それが何であるかはわかりません。
(ここで意図的に余分な点をプッシュしました。つまり、グラフは非常に小さくても有益なものになる可能性があるということです。実際には、それほど小さくしません。)
編集:
Parzenの意味で分位ボックスプロットに追加された相互参照(下の2番目の参照;「分位ボックスプロット」の他の使用法が存在します)
多くのゼロを持つノンパラメトリックデータの違いを測定するにはどうすればよいですか?
箱ひげ図を使用して、値が異なる条件から生じる可能性が高いポイントを見つける方法は?
Mann-Whitney U Testを使用して、どの実験のパフォーマンスが向上しているかを知るにはどうすればよいですか?
Shera、DM1991。データ表示を強化するための変位値プロットの使用。 計算科学と統計 23:50-53。
Militký、J。およびM. Meloun。1993.単変量の探索的データ分析のためのグラフィカルな支援。 Analytica Chimica Acta 277:215-221。
Meloun、M。およびJ.Militký。1994.分析ケモメトリックスにおけるコンピューター支援データ処理。I.単変量データの探索的分析。 化学論文 48:151-157。
編集2:
これらのスレッドの主なポイントは、当面の質問に答えるだけでなく、他の人の興味を引くかもしれない密接に類似した質問に触れることです。
ここの他の回答のグラフ設計には、他に詳細がない場合に1 ... 14のラベルが付けられた識別子が示されています。これらの識別子や他の識別子が解釈に使用されたと仮定すると、それらを示す簡単なデザインは(クリーブランド)ドットチャートです。いくつかの可能性のうち2つがあります。識別子の順序は文字通り尊重され(左)、値はソートされます(右)。必要に応じて、より長いラベルのための十分なスペースがあります。
棒グラフに対するこの設計の利点は、より良い選択と思われる場合、応答軸または結果軸がゼロではない値から開始する可能性があることです。
応答軸が垂直になるようにチャートを回転させることも簡単に想像できます。
@Nick Coxはすでにいくつかの良い例を挙げています。私がやや頻繁に使用する他の2つのオプションは、ポイントを重ねたボックスプロット、またはわずかにジッターしたものです。
Rコード付き
times<-c(5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2)
boxplot(times)
points(rep(1,length(times)),times,cex = 3, pch = 'x')
boxplot(times)
points(jitter(rep(1,length(times)),amount = 0.1),times,cex = 3, pch = 'x')
編集:必要に応じてバイオリンプロットを使用することもできます
ggplot(data.frame(times), aes(x = rep(0,length(times)), y = times)) + geom_violin() + geom_jitter()
あなたの質問は、このブログ投稿で説明されているテクニックを思い出しました。離散イベントの視覚化について。
中心的なトリックはthe time before an event
x をプロットすることthe time after an event
です。
これは偶然かもしれませんが、上部中央領域にはデータが含まれていません。そのため、いくつかの構造が表示されます。
すばやく汚いR
コード。
data <- c(5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2)
x=data[1:12]
y=data[2:13]
plot(x,y, col="white", xlab="Time before an event", ylab="Time after an event" )
for (i in 1:12) {
text(x[i],y[i], i)
}
text
はベクトル引数を取ります-動作するtext(x, y, 1:12)
はずです。
あなたは時間を使っているので、別のアイデア。
競馬場のプロット-極座標のバープロット-ストップウォッチと同じ効果が得られます。
理想的には、観測ラベルはバーまたは少なくとももう一方の端に重ねられます。現在、視聴者は、比較を行う際に、どの観測がどの(アップ/ダウン)であるかを追跡するという余分な負担を抱えています。