連続データの分布を視覚的に確認したい場合、ヒストグラムとpdfのどちらを使用する必要がありますか?
ヒストグラムとpdfの違いは、式ではなく、何ですか?
連続データの分布を視覚的に確認したい場合、ヒストグラムとpdfのどちらを使用する必要がありますか?
ヒストグラムとpdfの違いは、式ではなく、何ですか?
回答:
ダークスポイントを明確にするには:
データが正規分布のサンプルであるとします。次のプロットを作成できます。
赤い線は経験的な密度推定値であり、青い線は基礎となる正規分布の理論的なpdfです。ここで、ヒストグラムは頻度ではなく密度で表されていることに注意してください。これはプロットの目的で行われ、一般的にヒストグラムで頻度が使用されます。
したがって、質問に答えるために、サンプルを記述したい場合は経験的分布(すなわちヒストグラム)を使用し、仮定された基礎となる分布を記述したい場合はpdfを使用します。
Rの次のコードによってプロットが生成されます。
x <- rnorm(100)
y <- seq(-4,4,length.out=200)
hist(x,freq=F,ylim=c(0,0.5))
lines(density(x),col="red",lwd=2)
lines(y,dnorm(y),col="blue",lwd=2)
ヒストグラムは、コンピューターの年齢の密度の推定値です。密度推定は代替です。
最近では両方を使用していますが、どちらのデフォルトを使用すべきかについての豊富な文献があります。
一方、pdfは、指定された分布の閉形式表現です。これは、推定された密度またはヒストグラムでデータセットを記述することとは異なります。
ここには厳格なルールはありません。人口の密度がわかっている場合は、PDFの方が適しています。一方、多くの場合、サンプルを処理し、ヒストグラムは推定密度がカバーする情報を伝える場合があります。たとえば、Andrew Gelmanは次の点を指摘しています。
ヒストグラムの主な利点は、生データのプロットとして、独自のエラー評価のシードが含まれることです。または、別の言い方をすれば、わずかに平滑化されていないヒストグラムのギザギザは、サンプリングのばらつきを視覚的に示すことにより有用なサービスを実行します。だから、私の本や出版された記事のヒストグラムを見ると、私は常に多くのビンを使用しています。私はまた、人々が時々一次元分布を表示するために使用するカーネル密度の推定値が好きではありません。私はむしろヒストグラムを見て、データがどこにあるかを知りたいです。
相対頻度ヒストグラム(離散)
密度ヒストグラム(離散)
確率密度関数PDF(連続)
これらの参照は役に立ちました:) http://stattrek.com/statistics/dictionary.aspx?definition=Probability_density_function
上記のサイトからの Continuous_probability_distribution
http://www.geog.ucsb.edu/~joel/g210_w07/lecture_notes/lect04/oh07_04_1.html