「確率密度関数の下の総面積は1」-何に対してですか?


20

概念的には、「PDFの下の総面積は1」というフレーズの意味を理解しています。結果の可能性の合計間隔に含まれる可能性が100%であることを意味する必要があります。

しかし、「幾何学的」な観点からそれを本当に理解することはできません。たとえば、PDFでx軸が長さを表す場合、xがkmではなくmmで測定された場合、曲線の下の総面積は大きくなりませんか?

関数が直線に平坦化された場合、曲線の下の領域がどのように見えるかを常に想像してみます。その行の高さ(y軸上の位置)はどのPDFでも同じでしょうか、それとも関数が定義されているx軸上の間隔に依存する値を持っていますか?


x軸のスケールをkmからmmに変更できますが、それは何になりますか?それでも、x軸の単位にはまったく同じ画像と6個のゼロがあります。必要に応じてズームインまたはズームアウトできますが、それでも画像は変わりません。PDF曲線は(均一な分布を意味する)直線の水平ラインである場合一方、上のその位置y軸は単位に依存しない軸だけに間隔の長さ軸。それがあなたにとってどれほど役立つかはわかりませんが、私にとってズームインとズームアウトのアイデアは理解しやすくします。xx
リチャードハーディ

2
それは本当のようです。しかし、これは、水平方向に1000倍に拡大し、同時に垂直方向に比例して縮小する(明らかに奇妙な)拡大鏡を使用するようなものです。ただし、スケールを変更するだけでは、写真の本質は変わりません。
リチャードハーディ

2
この質問は、(別の方法で)stats.stackexchange.com/questions/4220 / ...で尋ねられて回答された質問と同じように思えます。
whuber

1
@amoeba、はい、多くの人が努力のおかげでより長い答えに投票することを余儀なくされるかもしれませんが(私もそうしました)、アクサカルは私の質問にはるかにはっきりと簡潔に答えました。公平を期すために、私はSilverfishの答えも助けになり、すぐに出てくると思います。
TheChymera

2
@amoeba PDFがCDFの派生物であるという事実に焦点を当てることは完全に異なる答えかもしれません。したがって、PDFの下の領域は、使用される単位に関係なく、明らかにCDFの限界値です。私はこれに短いセクションを含めるように誘惑されましたが、私の答えはすでに十分に長いと感じました(さらに、OPの問題の鍵はユニットの問題であるようで、CDFはそれを回避します)。
シルバーフィッシュ

回答:


14

確率密度関数は、x軸の測定単位あたりのパーセンテージで測定されます。レッツは、与えられた時点で言うx0あなたのPDFでの確率というこの手段1000に等しいx0<x<x0+dxある1000dxここで、dxはメートル単位です。単位をセンチメートルに変更する場合、確率は同じ間隔で変化することはありませんが、同じ間隔ではメートルより100センチ多いので、1000dx=PDF(x0)100dxおよび解法PDF(x0)=PDF(x0)100。センチメートルあたりの確率(パーセント)の単位は、メートルあたりの100倍です。


46

縦軸が確率密度として測定されることを理解するのに役立つかもしれません。したがって、水平軸がkmで測定される場合、垂直軸は「kmあたりの」確率密度として測定されます。このようなグリッド上に幅5 "km"および高さ0.1 "per km"の長方形の要素を描画するとします( "km - 1 " と書く方が良いかもしれません)。この長方形の面積は5 km x 0.1 km 1 = 0.5です。ユニットはキャンセルされ、半分の確率で残ります。11

水平の単位を「メートル」に変更した場合、垂直の単位を「メートル」に変更する必要があります。長方形の幅は5000メートルになり、密度(高さ)は1メートルあたり0.0001になります。あなたはまだ半分の確率で残っています。これらの2つのグラフが互いに比較してページ上で奇妙に見えることに混乱するかもしれません(一方を他方よりも大きく、短くする必要はありませんか?)、しかし、物理的にプロットを描くときは何でも使用できますあなたが好きなスケール。以下を見て、どの程度の奇妙さを伴う必要があるかを確認してください。

確率密度曲線に進む前に、ヒストグラムを検討すると役立つ場合があります。多くの点でそれらは類似しています。ヒストグラムの垂直軸は周波数密度[ 単位]でx、面積は周波数を表します。これも、水平および垂直単位が乗算時に相殺されるためです。PDF曲線は、合計頻度が1のヒストグラムの一種の連続バージョンです。

さらに近い例として、相対頻度ヒストグラムがあります。このようなヒストグラムは「正規化」されているため、面積要素は生の頻度ではなく元のデータセットの割合を表し、すべてのバーの合計面積は1になります。高さは、相対周波数密度[単位単位]になりましたx。相対頻度ヒストグラムにxに沿って伸びるバーがある場合x値は20 kmから25 km(バーの幅は5 km)で、相対周波数密度はkmあたり0.1で、そのバーにはデータの0.5の割合が含まれます。これは、データセットからランダムに選択されたアイテムがそのバーにある確率が50%であるという考えに正確に対応しています。単位の変更の影響に関する前の議論はまだ適用されます。これら2つのプロットについて、20 km〜25 kmのバーにあるデータの割合を20,000メートル〜25,000メートルのバーにある割合と比較します。また、両方のケースですべてのバーの面積が1つになることを算術的に確認することもできます。

異なる単位の相対頻度ヒストグラム

PDFが「ヒストグラムの連続バージョンの一種」であるという主張によって私は何を意味したのでしょうか?者に沿って、確率密度曲線の下の小さなストリップを見てみましょう間隔の値[ X X + δ X ]ストリップであるので、δ X広い、曲線の高さはほぼ一定であり、F X 。その高さのバーを描くことができ、その面積f x x[x,x+δx]δxf(x)そのストリップに横たわっているのおおよその確率を表します。f(x)δx

x = bの間の曲線の下の領域をどのように見つけることができますか?その間隔を小さなストリップに再分割し、バーの面積の合計f x を取得できます。x=ax=b間隔にあるの近似確率に対応する、B ]。曲線とバーが正確に整列していないため、近似に誤差があります。行うことで、 δ xは各バーのためにますます小さく、我々はより狭いバーとの間隔を埋める Σ F Xのf(x)δx[a,b]δx領域のより良好な推定値を提供します。f(x)δx

むしろ仮定より、正確に領域を計算するために各ストリップにわたって一定であった、我々は、積分評価B、F X D X間隔にある真の確率に、この対応する[ B ]。相対頻度ヒストグラムのすべてのバーの面積を合計すると合計面積(つまり合計比率)が1になるのと同じ理由で、曲線全体で積分すると合計面積(つまり合計確率)が1になります。統合自体は、一種の継続的なバージョンの合計です。f(x)abf(x)dx[a,b]

ここに画像の説明を入力してください

プロットのRコード

require(ggplot2)
require(scales)
require(gridExtra)
# Code for the PDF plots with bars underneath could be easily readapted

# Relative frequency histograms
x.df <- data.frame(km=c(rep(12.5, 1), rep(17.5, 2), rep(22.5, 5), rep(27.5, 2)))
x.df$metres <- x.df$km * 1000

km.plot <- ggplot(x.df, aes(x=km, y=..density..)) +
  stat_bin(origin=10, binwidth=5, fill="steelblue", colour="black") +
  xlab("Distance in km") + ylab("Relative frequency density per km") +
  scale_y_continuous(minor_breaks = seq(0, 0.1, by=0.005))

metres.plot <- ggplot(x.df, aes(x=metres, y=..density..)) +
  stat_bin(origin=10000, binwidth=5000, fill="steelblue", colour="black") +
  xlab("Distance in metres") + ylab("Relative frequency density per metre") +
  scale_x_continuous(labels = comma) +
  scale_y_continuous(minor_breaks = seq(0, 0.0001, by=0.000005), labels=comma)

grid.arrange(km.plot, metres.plot, ncol=2)
x11()

# Probability density functions
x.df <- data.frame(x=seq(0, 1, by=0.001))
cutoffs <- seq(0.2, 0.5, by=0.1) # for bars
barHeights <- c(0, dbeta(cutoffs[1:(length(cutoffs)-1)], 2, 2), 0) # uses left of bar

x.df$pdf <- dbeta(x.df$x, 2, 2)
x.df$bar <-  findInterval(x.df$x, cutoffs) + 1 # start at 1, first plotted bar is 2
x.df$barHeight <- barHeights[x.df$bar]

x.df$lastBar <- ifelse(x.df$bar == max(x.df$bar)-1, 1, 0) # last plotted bar only
x.df$lastBarHeight <- ifelse(x.df$lastBar == 1, x.df$barHeight, 0)
x.df$integral <- ifelse(x.df$bar %in% 2:(max(x.df$bar)-1), 1, 0) # all plotted bars
x.df$integralHeight <- ifelse(x.df$integral == 1, x.df$pdf, 0)

cutoffsNarrow <- seq(0.2, 0.5, by=0.025) # for the narrow bars
barHeightsNarrow <- c(0, dbeta(cutoffsNarrow[1:(length(cutoffsNarrow)-1)], 2, 2), 0) # uses left of bar
x.df$barNarrow <-  findInterval(x.df$x, cutoffsNarrow) + 1 # start at 1, first plotted bar is 2
x.df$barHeightNarrow <- barHeightsNarrow[x.df$barNarrow]

pdf.plot <- ggplot(x.df, aes(x=x, y=pdf)) +
  geom_area(fill="lightsteelblue", colour="black", size=.8) +
  ylab("probability density") +
  theme(panel.grid = element_blank(),
  axis.text.x = element_text(colour="black", size=16))

pdf.lastBar.plot <- pdf.plot +
  scale_x_continuous(breaks=tail(cutoffs, 2), labels=expression(x, x+delta*x)) +
  geom_area(aes(x=x, y=lastBarHeight, group=lastBar), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(x<=X)<=x+delta*x)%~~%f(x)*delta*x"), parse=TRUE)

pdf.bars.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffs[c(1, length(cutoffs))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=barHeight, group=bar), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)%~~%sum(f(x)*delta*x)"), parse=TRUE)

pdf.barsNarrow.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffsNarrow[c(1, length(cutoffsNarrow))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=barHeightNarrow, group=barNarrow), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)%~~%sum(f(x)*delta*x)"), parse=TRUE)

pdf.integral.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffs[c(1, length(cutoffs))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=integralHeight, group=integral), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)==integral(f(x)*dx,a,b)"), parse=TRUE)

grid.arrange(pdf.lastBar.plot, pdf.bars.plot, pdf.barsNarrow.plot, pdf.integral.plot, ncol=2)

あなたは最初の2行でそれを釘付けしましたが、残りは同じくらい良いです。
PatrickT

2
@PatrickTありがとう-さまざまな学習者(または読者)がさまざまなレベルの知識を持っているため、教育経験から、ペニーが落ちる前にいくつかのことを試さなければならないことがあります。最初の2行は、次元分析を知っている読者を説得するはずです(たとえば、物理科学または工学を勉強した場合)。しかし、プロットが残りを整理することを望んでいます。私の経験では、ヒストグラムアプローチは、以前に遭遇したことのある学生に適しています。「相対周波数密度」と「確率密度」の間のギャップは、よりもブリッジしやすいです。f(x)=F(x)
シルバーフィッシュ

1
@Silverfish:誰かが英語で「ペニードロップ」という用語を使うのを見たのはこれが初めてです。
Mehrdad

1
最初のチャートは、誰かが鳥をひっくり返したように見えます:)
Aksakal

1
@Aksakalウーフ。私はそれに気づかなかった。いくつかの修正なしにクラスでその例を使用しないことを覚えておく必要があります。(同じ行で、ボード上で解決する問題を作成するとき、69のような特定の数値が表示されないようにします。経験は苦労します。)
Silverfish

7

Silverfishによる素晴らしい回答とともに、すでに2つの答えが得られましたが、ここでは、ジオメトリとそれらの機能を「想像する」ことについて尋ねたので、ここでイラストが役立つと思います。

ベルヌーイ分布の簡単な例から始めましょう:

f(x)={pif x=1,1pif x=0.

enter image description here

値は離散的であるため、「曲線」はなく、2つのポイントしかありませんが、考え方は似ています。合計確率(曲線下の面積)を知りたい場合は、考えられる両方の結果の確率を合計する必要があります。

p+(1p)=1

p1p

xxf(x)x1x11#{xi}=N#{xi}/N=1N

enter image description here

xx。そのため、ポイントが存在する場合、どの程度「ズームイン」しても、それらを見ることができません。これは、任意のポイント間に常に無限の数の小さなポイントが存在する可能性があるためです。そのため、ここには実際に曲線があります-無限に多くの「点」で作られていることが想像できます。無限の確率の合計を計算する方法を自問することもできます。下のプロットの赤い曲線は通常のPDFで、黒いボックスは分布から描かれたいくつかの値のヒストグラムです。そのため、ヒストグラムプロットは、特定の幅の有限数の「ボックス」に分布を単純化しました。また、ボックスの高さと幅を合計すると、曲線の下の領域、またはすべてのボックスの領域になります。各ボックスは、ボックスに詰め込まれた無数の「ポイント」の要約であるため、ここではポイントではなくエリアを使用します。

enter image description here

f(x)2.53=0.5

0.010 0.028 0.094 0.198 0.260 0.400 0.404 0.292 0.166 0.092 0.044 0.010 0.002

0.511

11f(x)

ab33

abf(x)dx

f(x)dx

「フラット」(均一)分布についても質問しました:

enter image description here

<a<b<11ε小さい...これは複雑なケースであり、抽象的な用語で想像することができます。Ilmari Karonenがコメントで気付いたように、これは実際には実際には不可能な抽象的な概念であることに注意してください(以下のコメントを参照)。そのような分布を事前分布として使用すると、不適切な事前分布になります。

1


1
1XY(,)|X|<|Y|

あなたは正しい、「複雑」は非公式すぎる。後で修正します。
ティム

0

次の重要なアイデアはコメントで言及されましたが、既存の回答では言及されていません...

PDFのプロパティについて直観する1つの方法は、PDFとCDFが統合(計算)によって関連付けられていること、およびCDFが0から1の間の確率値を表す単調な出力を持っていることを考慮することです。

PDF曲線の下の単位なしの統合された総面積は、X軸単位の影響を受けません。

簡単に言えば...

Area = Width x Height

単位の変更により数値的にX軸が大きくなる場合、Y軸は対応する線形係数だけ小さくする必要があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.