ディストリビューションとは正確には何ですか?


16

私は確率と統計についてほとんど知らないので、学びたいと思っています。「分布」という言葉は、さまざまな文脈のあちこちで使われています。

たとえば、離散確率変数には「確率分布」があります。私はこれが何であるかを知っています。連続確率変数は、その後のため、確率密度関数を有するから積分、に確率密度関数のは、で評価累積分布関数である。xRxx

そして、少なくとも連続的なランダム変数について話すとき、明らかに「分布関数」は「累積分布関数」と同義です(質問:それらは常に同義語ですか?)。

その後、多くの有名なディストリビューションがあります。 分布分布など。しかし、分布とは正確には何ですか?ランダム変数の累積分布関数ですか?または、確率変数の確率密度関数?Γχ2ΓΓΓ

しかし、その場合、有限データセットの頻度分布はヒストグラムのように見えます。

長い話:確率と統計では、「分布」という言葉の定義は何ですか?

数学(誘導極限トポロジーを備えたテスト関数の集合の二重空間の要素)の分布の定義は知っていますが、確率と統計はわかりません。


1
対応するウィキペディアの記事は、トピックへのきちんとした紹介のようです。
アレクサンドルブレフ

1
厳密には、「配布」と「cdf」は同義語と見なされる必要がありますが、「配布」ははるかに緩やかな意味で使用されることが多く、実際に密度/ pmfを指すために使用されることがよくあります。
Glen_b -Reinstateモニカ

3
分布についてのあなたの理解は、確率におけるものにかなり近いです。主な違いは、確率のそれらがいくつかの追加の特性を享受することです(正であり、単一性に正規化される)。接続は、定義が関連する期待演算子に関して分布を確立することです。また、統計によく見られる言語の(深刻な)乱用もあります。最後に、有限データセットは、それからサンプリングすることによって得られる分布、つまり「経験的分布」を決定します。
whuber

@whuberこれは、特に言語の乱用に感謝します。それは、関数の不定積分を呼び出すようなものです...関数。
ダンジブル

回答:


7

以下は、のためである大切なランダム変数。他のスペースへの拡張は、興味があれば簡単です。次のやや一般的な定義は、密度、質量、累積分布関数を個別に考慮するよりも直感的であると主張します。R

私はそれを修正するためにテキストにいくつかの数学/確率論的な用語を含めます。それらの用語に精通していない場合、直観は、「ボレルセット」を「私が考えることができるサブセット」、およびランダム変数のいくつかの実験の数値結果として考えるだけでも同様によく理解されます。関連する確率。R


してみましょう確率空間となるX ω R -このスペースにランダム変数を高く評価しました。(Ω,F,P)X(ω)R

集合関数Aはボレル集合である、の分布と呼ばれるXQ(A):=P(ωΩ:X(ω)A)AX

つまり、分布は、任意のサブセットについて、Xがそのセットの値をとる確率を(大まかに言って)示します。一つのことを証明することができ、Qが完全に機能することによって決定されるF X = P X X またはその逆。それを行うには-と私はここで詳細をスキップ-確率割り当てるボレル集合に対策を構築F Xをすべてのセットに- X と、この有限な措置がと一致していると主張しているQ AにRXQF(x):=P(Xx)F(x)(,x)Qボレル生成システム σを-代数。πσ

そのような場合のように書くことができるQ A = A F X D X次いでfをするための密度関数であり、Qが、この密度は一意に決定されていないが、あなたが見ることができる(上の変更を検討ルベーグ測度の集合はゼロ)、Xの分布としてfについても話すのは理にかなっています。ただし、通常はXの確率密度関数と呼ばれます。Q(A)Q(A)=Af(x)dxfQfXX

そうことが発生した場合も同様に、のように書くことができるQ A = Σ I A { ... - 1 0 1 ... } F I 、それは話すことが理にかなってF通常は確率質量関数と呼ばれますが、Xの分布として。Q(A)Q(A)=iA{,1,0,1,}f(i)fX

何かを読み取るたびに「のようなしたがって、上に均一な分布以下の[ 0 1 ]」、それは単に機能があることを意味Q A あなたの確率伝え、Xは特定のセットの値を取るが、ことを特徴とします確率密度関数F X = I [ 0 1 ]または累積分布関数F X = X - F T X[0,1]Q(A)Xf(x)=I[0,1]F(x)=xf(t)dt

確率変数については言及せず、分布のみについて言及する場合の最後のメモ。分布関数(または質量、密度、累積分布関数)が与えられると、この分布を持つ確率変数を持つ確率空間が存在することを証明できます。したがって、分布について、またはその分布を持つランダム変数について話すことに本質的に違いはありません。それはただの焦点の問題です。


3

ましょうさせ、確率空間であるXBを測定空間であること、およびlet X Ω Xである測定機能、手段X - 1B = { ω X ω B } FすべてのためのB BX分布は確率測度μ(Ω,F,P)(X,B)X:ΩXX1(B)={ω:X(ω)B}FBB XXBによって定義される μ XB = P X B 。場合 X = R Bはボレルのシグマ・フィールドであり、我々は関数を指す Xランダム「変数」として。μX(X,B)μX(B)=P(XB)X=RBX


1
確率と統計の知識がほとんどない人には非常に明確でなければなりません:)
アレクセイグリゴレフ

3
まあ、OPは「誘導性制限トポロジーを備えたテスト関数の集合の二重空間の要素」などの高度な数学のことを知っているようです。彼の質問の終わりを確認してください。

2
それは本当に私にとって良い反応でした。確率空間の定義を確認する必要がありましたが、数学の背景を持つ人にとっては明らかでした。私は答えの簡潔さを高く評価しましたが、他の答えの詳細のために受け入れなかっただけです。
ダンジブル

1

これまでの質問と回答は、理論的な分布に焦点を当てているようです。経験的分布は、分布のより直感的な理解を提供します。

縄跳びのクラストーナメント中に、縄跳びのクラスのすべての子供を観察します。最初の子供は2回、次の子供は4回、次の子供は15回など、ジャンプできます。ジャンプの回数を記録します。5人の子供がそれぞれ8回ジャンプしましたが、子供のうち1人だけが2回ジャンプしました。8回のジャンプは、2回のジャンプとは異なる分布であると言います。

観測された分布の表向きの定義は、変数の各観測値の発生頻度です。

推論統計では、理論分布の仮定を使用して作業するため、理論分布を観測分布に適合させようとします。「observed」を「observerable」に置き換えるか、より正確には「expected」に置き換えることで、理論的な分布の同様の定義に到達できます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.