確率表記の意味および


27

多くの本や論文で一般的に使用されている表記と意味の違いは何ですか?P z | d w P(z;d,w)P(z|d,w)


13
f(x;θ)はf(x |θ)と同じです。つまり、θは固定パラメーターであり、関数fはxの関数です。f(x、Θ)、OTOHは、関数のファミリー(セット)の要素であり、要素はΘによってインデックス付けされます。おそらく微妙な違いですが、重要なもの、特に。既知のデータxに基づいて未知のパラメータθを推定するときが来たら; その時点で、θは変化し、xは固定され、「尤度関数」が得られます。「|」の使用 統計学者の間ではより一般的で、「;」数学者の間で。
jbowman

はい、jbowmanは正しいです。Θを与えられたXの密度と呼ぶこともあります。
マイケルR.チャーニック

@jbowman答えとしてそれを投稿してみませんか?私の唯一の質問は、なぜ両方を使用するのかということですが、コンテキストと関係があると思います(「|」は「P」で、「;」は「」で使用されます)。f
安倍

良い考え、阿部。それはおそらくそれです。はもっと一般的だと思う。f
jbowman

回答:


12

これの起源は尤度パラダイムであると信じています(以下の実際の歴史的正確さは確認していませんが、iotがどのようになったかを理解する合理的な方法です)。

回帰設定で、p(Y | x、beta)という分布があるとします。つまり、xとbetaの値がわかっている(条件付きで)場合のYの分布です。

ベータを推定する場合は、尤度を最大化します。L(beta; y、x)= p(Y | x、beta)基本的に、式p(Y | x、beta)は次のようになります。ベータ版の機能ですが、それ以外は違いはありません(適切に導出できる数学的に正しい表現の場合、これは必要です-実際には誰も気にしませんが)。

その後、ベイジアン設定では、パラメータと他の変数の違いがすぐに消えていくため、両方の表記法を混在させて使用し始めました。

つまり、本質的には、実際の違いはありません。両方とも、左側の事物の条件付き分布を示し、右側の事物を条件としています。


23

X X θ F X θ X Θ X θ Θ F f(x;θ)ランダム変数の密度である点におけると、分布のパラメータです。は、ポイントでのと結合密度であり、がランダム変数の場合にのみ意味を持ちます。は与えられたの条件付き分布であり、これもが確率変数である場合にのみ意味があります。この本をさらに読み、ベイジアン分析を見ると、これはより明確になります。Xxθf(x,θ)XΘ(x,θ)ΘX Θ Θf(x|θ)XΘΘ


Uhhhh ...の条件付き分布である与えられた場合でも、完璧な理にかなってランダムな変数ではありません。これは、古典的な統計ではかなり標準的な表記法であり、はランダム変数ではありません。X θ θ θf(x|θ)xθθθ
jbowman

Uhhhh .... P [Θ=θ] = 1(左のΘはランダム変数、右のθは定数)を意味すると解釈すると、同意します。そうでなければ、条件付き分布の定義の分母でP [Θ=θ]はどういう意味ですか?
PeterR

分母?私は書くことができfはベイズの規則を参照することなく正規分布であるが。 μσは固定です。ll.mit.edu/mission/communications/ist/publications/…など、その他も同様です。xf(x|μ,σ)fμσ
jbowman

jbowman、μとσが固定数(つまり、ランダム変数ではない)である場合、条件付き密度としてのf(x |μ、σ)の定義は何ですか?
PeterR

1
表記f(X | Y)に関連付けられている「条件付き」という言葉は、「何らかのランダムなイベントの発生時に条件付き」と定義されています。「f(x)与えられた(特定の値)μおよびσ」のように、単に「与えられた」など、他の何かを意味するために使用している場合、それはf(x;μ、σ)の表記ですのためです。OPは表記の意味について尋ねていたので、答えの表記について正確にする必要があります。
PeterR

18

f(x;θ)f(x|θ)と同じです。つまり、θは固定パラメーターであり、関数fx関数です。f(x,Θ)、OTOHは、関数のファミリー(またはセット)の要素であり、要素はΘインデックス付けされます。おそらく微妙な違いですが、重要なもの、特に。既知のデータ xに基づいて未知のパラメータθを推定するときが来たとき。そのとき、 θは変化し、 xxθx固定され、「尤度関数」が得られます。統計学者の間では使用がより一般的;数学者の間で。


1
はどのように口頭で話されますか?「θが与えられたxのf」と言いますか?f(x;θ)
stackoverflowuser2010 14年

@ stackoverflowuser2010-はい、そうです。
jbowman 14年

2
スタンフォード大学のAndrew Ng教授がセミコロンを「パラメータ化された」と表現していることをCourseraのビデオで見つけました。class.coursera.org/ml-005/lecture/34を参照してください。したがって、この例は「シータによってパラメータ化されたxのf」として話されます。
stackoverflowuser2010 14年

5
「与えられた」または「条件付き」と言うことは(一般に)「パラメータ化された」とは非常に異なります。誰かがこれを見て、2つが同等だと思ったら嫌だ。「パラメーター化された」と言うのは、条件付けられている量が、最初の項の変数の確率密度関数をインデックス付けするパラメーターである場合にのみ適切です。2つの変数(f(x; y)など)の場合、その用語の使用は間違っています。
-ATJ

2
@MikeWilliamson-確かに、すべてが何を意味するかを知っている表記法を選択し、それにこだわってください!そうすることで、私の経験の4時間前など、以前に行ったことに戻ったときに、その「|」を使用したときの意味を理解する必要がなくなります。私は同意しますが、それは迷惑ですが、しばらくすると、表記法の最初の使用法を観察し、残りの紙/本でそれを覚えているだけです。とにかく、通常、区別は重要ではありません。
jbowman

9

常にこのようになっているわけではありませんが、最近ではは、d wがランダム変数ではない場合に使用されます(必ずしも既知であるとは限りません)。P z | d w は、d wの値の条件付けを示します。条件付けはランダム変数に対する操作であるため、d wがランダム変数ではないときにこの表記法を使用するのは混乱を招きます(そして悲劇的に一般的です)。P(z;d,w)d,wP(z|d,w)d,wd,w

@Nick Sabbeが指摘するように、は、観測データyのサンプリング分布の一般的な表記法です。一部の頻繁に使用される表記法では、この表記を使用しますが、Θはランダム変数ではなく、IMOの乱用であると主張します。しかし、彼らはそこに独占権を持っていません。ベイジアンもそれを行い、条件式の最後に固定ハイパーパラメーターを追加しました。p(y|X,Θ)yΘ


2
2番目の段落では、典型的な統計状況(回帰モデルの近似など)で、はランダム変数ではなく、既知の定数のセットと見なされることを指摘する価値があります。X
GUNG -復活モニカ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.