小さなサンプルのグラフ化


13

タスクを完了するために、14回の個別の小さなデータセットがあります。しかし、データをグラフ化するために使用する適切なグラフを見つけることが困難です。サンプルが大きかった場合、ボックスプロットまたはヒストグラムを使用しますが、サンプルが非常に小さいときにこの場合に使用するのが適切かどうかはわかりません。

更新:時間は5.2、3.9、5.6、4.2、3.8、4.1、6.0、5.6、4.4、4.5、4.9、4.5、4.9、4.2です


4
人々がさまざまなソリューションを投稿することを奨励するための具体的な例として、あなたが関心を持っている実際のデータを示すことに勝るものはありません。事前に、ボックスオーバーレイを使用したドットプロットまたはストリッププロットおよび分位点プロットをお勧めします。
ニックコックス

回答:


16

ここでの基本原則は、個々の値をすべて表示できることであると考えています。詳細が明らかに興味深くも有用でもない場合でも、それを表示しない理由や、バーが1つまたは2つの値のみを表すヒストグラムを(たとえば)デコードするよう読者に強制する理由はありません。

ここで小さな複合材料を提供します。左上のドットまたはストリッププロット(同じアイデアに少なくとも20個の名前が使用されている)が水平に表示され、右上に同じアイデアが垂直に表示されています。同じ値のインスタンスは、スタックによって照合されます。

一番下は、Parzenの意味でのクォンタイルボックスプロットで、暗黙の水平スケールは累積確率(一般的な専門用語でのプロット位置)であり、従来の中央値および四分位数ボックスは(原則として)半分になるように描画できます値は常に通知されるようにボックス内にあり、値の半分は外部にあります。ここの余分な水平線は平均を表しています。一部の人々は、ボックスプロットに追加のポイントまたはマーカーシンボルとして手段を追加します。データ自体を表示することと衝突する可能性があることがわかり、余分な行が好きです。中央値の線と平均の線が一致しているように見える場合は、何をすべきかを考える必要があります。ほとんどの場合、平均値と中央値は明らかに異なります。

おそらく、測定単位をグラフ上で明示的にすることが標準ですが、それが何であるかはわかりません。

ここに画像の説明を入力してください

(ここで意図的に余分な点をプッシュしました。つまり、グラフは非常に小さくても有益なものになる可能性があるということです。実際には、それほど小さくしません。)

編集:

Parzenの意味で分位ボックスプロットに追加された相互参照(下の2番目の参照;「分位ボックスプロット」の他の使用法が存在します)

多くのゼロを持つノンパラメトリックデータの違いを測定するにはどうすればよいですか?

箱ひげ図を使用して、値が異なる条件から生じる可能性が高いポイントを見つける方法は?

独立した2つのサンプルt検定を視覚化する方法は?

Mann-Whitney U Testを使用して、どの実験のパフォーマンスが向上しているかを知るにはどうすればよいですか?

Shera、DM1991。データ表示を強化するための変位値プロットの使用。 計算科学と統計 23:50-53。

Militký、J。およびM. Meloun。1993.単変量の探索的データ分析のためのグラフィカルな支援。 Analytica Chimica Acta 277:215-221。

Meloun、M。およびJ.Militký。1994.分析ケモメトリックスにおけるコンピューター支援データ処理。I.単変量データの探索的分析。 化学論文 48:151-157。

編集2:

これらのスレッドの主なポイントは、当面の質問に答えるだけでなく、他の人の興味を引くかもしれない密接に類似した質問に触れることです。

ここの他の回答のグラフ設計には、他に詳細がない場合に1 ... 14のラベルが付けられた識別子が示されています。これらの識別子や他の識別子が解釈に使用されたと仮定すると、それらを示す簡単なデザインは(クリーブランド)ドットチャートです。いくつかの可能性のうち2つがあります。識別子の順序は文字通り尊重され(左)、値はソートされます(右)。必要に応じて、より長いラベルのための十分なスペースがあります。

棒グラフに対するこの設計の利点は、より良い選択と思われる場合、応答軸または結果軸がゼロではない値から開始する可能性があることです。

応答軸が垂直になるようにチャートを回転させることも簡単に想像できます。

ここに画像の説明を入力してください


(+1)ドットまたはストリッププロットを見たことがあります。特に、垂直方向の場合、「スタック」ポイントが左揃えではなく中央揃えになっています(つまり、3つのスタックポイントがある場合、中央のポイントは積み重ねられていないポイント)。これにより、見た目に美しい対称線が得られますが、実際にどの程度有益であるかはわかりません。おそらく、ボックスの重ね合わせが簡単になります。これには別の名前がありますか?そして、それを回避/採用するアドバイスはありましたか?
シルバーフィッシュ

1
また、Parzenの参考になる可能性はありますか?私はいつもこれらのプロットが好きでしたが、実際にそれらの適切な参照を読んだことがありません。
シルバーフィッシュ

@Silverfish Centered(centered)バリアントは確かに人気があり、よく議論されています。あなたが言及するように、小さな問題は対称性に対する欲求であるように思われますが、ヒストグラムスタイルに似たデザインではなく、私は少し好む傾向がありますが、それは好みと状況の問題です。私は相互参照を追加し、他の人を歓迎します。
ニックコックス

3

@Nick Coxはすでにいくつかの良い例を挙げています。私がやや頻繁に使用する他の2つのオプションは、ポイントを重ねたボックスプロット、またはわずかにジッターしたものです。

ここに画像の説明を入力してください

ここに画像の説明を入力してください

Rコード付き

times<-c(5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2)
boxplot(times)
points(rep(1,length(times)),times,cex = 3, pch = 'x')

boxplot(times)
points(jitter(rep(1,length(times)),amount = 0.1),times,cex = 3, pch = 'x')

編集:必要に応じてバイオリンプロットを使用することもできます

ggplot(data.frame(times), aes(x = rep(0,length(times)), y = times)) + geom_violin() + geom_jitter()

ここに画像の説明を入力してください


1
返信いただきありがとうございます。もともとサンプルのサイズが原因で、分析でボックスプロットを使用することに消極的でした。しかし、さまざまな教科書を見てみると、私のサンプルサイズは十分なようです。
イーモン

1

あなたの質問は、このブログ投稿で説明されているテクニックを思い出しました。離散イベントの視覚化について。

中心的なトリックはthe time before an eventx をプロットすることthe time after an eventです。

視覚化されたデータ[1]

これは偶然かもしれませんが、上部中央領域にはデータが含まれていません。そのため、いくつかの構造が表示されます。


すばやく汚いRコード。

data <- c(5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2)
x=data[1:12]
y=data[2:13]
plot(x,y, col="white", xlab="Time before an event", ylab="Time after an event"  )
for (i in 1:12) {
    text(x[i],y[i], i)
}

OPは14回別々に言った。これらはシリーズではないことを暗示していると読みました。シリーズである場合、あなたのアイデアは確かに適切です。
ニックコックス

あなたはおそらく正しいです。ただし、それらがシリーズではない場合でも、グラフ時間間の依存関係示します。明らかに、軸ラベルは間違っています。
ハラルドトムソン

2
OPのみがデータが何であるかを正確に明確にすることができますが、このグラフがどちらの方法でも勝つとは思いません。データが別々の時間である場合、値が与えられる順序に意味がない限り、グラフは無意味です。
ニックコックス

fyi textはベクトル引数を取ります-動作するtext(x, y, 1:12)はずです。
MichaelChirico

1

あなたは時間を使っているので、別のアイデア。

競馬場のプロット-極座標のバープロット-ストップウォッチと同じ効果が得られます。

競馬場

理想的には、観測ラベルはバーまたは少なくとももう一方の端に重ねられます。現在、視聴者は、比較を行う際に、どの観測がどの(アップ/ダウン)であるかを追跡するという余分な負担を抱えています。


2
私はそれをエキセントリックであり、実際に率直に言って完全にひねくれたグラフ技術だと考えなければなりません。目は弧の長さでさえ見えず、そのように解読される領域を見るが、脳は介入し、回転角だけが有益であることを強調しなければならない。どの値が互いにより小さい、等しい、または大きいかを正確に確認することさえ困難な作業であり、これは受け入れ可能なグラフスタイルで即座に行われます。
ニックコックス

このデザインで見られる唯一のプラスは、格付けが異常なデザインである場合を除き、識別子#1から#14がこのデザインで即時であることです。私は自分の答えの編集でこの点を取り上げました。
ニックコックス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.