ヒストグラムとPDFの違いは?


18

連続データの分布を視覚的に確認したい場合、ヒストグラムとpdfのどちらを使用する必要がありますか?

ヒストグラムとpdfの違いは、式ではなく、何ですか?


この質問がデータ(ヒストグラムで表される可能性がある)または理論的な構成(確率分布を説明するpdfなど)に関係するかどうかを明確にしてください。
whuber

4
しかし、pdfはどこから来たのでしょうか?定義により、pdfは理論的な確率分布を表します。おそらくedf(経験的分布関数)を意味しますか?
whuber

回答:


22

ダークスポイントを明確にするには:

データが正規分布のサンプルであるとします。次のプロットを作成できます。

代替テキスト

赤い線は経験的な密度推定値であり、青い線は基礎となる正規分布の理論的なpdfです。ここで、ヒストグラムは頻度ではなく密度で表されていることに注意してください。これはプロットの目的で行われ、一般的にヒストグラムで頻度が使用されます。

したがって、質問に答えるために、サンプルを記述したい場合は経験的分布(すなわちヒストグラム)を使用し、仮定された基礎となる分布を記述したい場合はpdfを使用します。

Rの次のコードによってプロットが生成されます。

x <- rnorm(100)
y <- seq(-4,4,length.out=200)

hist(x,freq=F,ylim=c(0,0.5))
lines(density(x),col="red",lwd=2)
lines(y,dnorm(y),col="blue",lwd=2)

周波数と密度の違いは何ですか?
ラクシェイ

2
@Lakshayの頻度はカウントです。合計されたすべての周波数は、観測数に等しくなります。密度はPDF(probability density function)の略で、特定の値を持つ確率のプロキシです。1. PDFの合計の下の領域
ヨリスMeys

13

ヒストグラムは、コンピューターの年齢の密度の推定値です。密度推定は代替です。

最近では両方を使用していますが、どちらのデフォルトを使用すべきかについての豊富な文献があります。

一方、pdfは、指定された分布の閉形式表現です。これは、推定された密度またはヒストグラムでデータセットを記述することとは異なります。


1
μσ2density

*ab***ab**$\sqrt{2}$2

6

ここには厳格なルールはありません。人口の密度がわかっている場合は、PDFの方が適しています。一方、多くの場合、サンプルを処理し、ヒストグラムは推定密度がカバーする情報を伝える場合があります。たとえば、Andrew Gelmanは次の点を指摘しています。

ヒストグラムのバリエーション

ヒストグラムの主な利点は、生データのプロットとして、独自のエラー評価のシードが含まれることです。または、別の言い方をすれば、わずかに平滑化されていないヒストグラムのギザギザは、サンプリングのばらつきを視覚的に示すことにより有用なサービスを実行します。だから、私の本や出版された記事のヒストグラムを見ると、私は常に多くのビンを使用しています。私はまた、人々が時々一次元分布を表示するために使用するカーネル密度の推定値が好きではありません。私はむしろヒストグラムを見て、データがどこにあるかを知りたいです。


3
私は、Gelmanが小さなビン幅のヒストグラムの使用を推奨している理由を完全には理解していないことを認めなければなりません。観測データの経験的分布をはるかによく伝えるストリップチャートプロットまたはカーネル密度推定値を重ね合わせた生データを使用しないのはなぜですか?
chl

2
@chl:もちろん、サンプリングの変動性の感覚を得るために、他の優れた視覚化方法があります。しかし、ここで議論されているヒストグラムv。pdfのより狭い比較については、彼の指摘は十分になされていると思います。
アルス

1
そこに議論されている論文と同様、それは素晴らしいリンクです。しかし、このアプローチはシミュレーションにも当てはまります。その場合、実際に密度を推定しようとしていますか?
デビッドルバウアー

1

相対頻度ヒストグラム(離散

  • 「y」軸は正規化されたカウントです
  • 「y」軸はその特定のビン/範囲の離散確率です
  • 正規化されたカウントの合計は1

密度ヒストグラム(離散

  • 「y」軸は密度値です(「正規化されたカウント」を「ビン幅」で割った値)
  • バーエリアの合計は1

確率密度関数PDF(連続

  • ヒストグラムビンは離散的であるため、PDFはヒストグラムの連続バージョンです
  • 曲線下の総面積は1に統合されます

これらの参照は役に立ちました:) http://stattrek.com/statistics/dictionary.aspx?definition=Probability_density_function

上記のサイトからの Continuous_probability_distribution

http://www.geog.ucsb.edu/~joel/g210_w07/lecture_notes/lect04/oh07_04_1.html

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.