サンプルのCDFが均一に分布している理由


17

ここで、cdfを使用した連続分布からのサンプルが与えられ、対応するサンプルが標準的な均一分布に従うことを読みました。X1,X2,...,XnFXUi=FX(Xi)

Pythonの定性シミュレーションを使用してこれを検証しましたが、関係を簡単に検証できました。

import matplotlib.pyplot as plt
import scipy.stats

xs = scipy.stats.norm.rvs(5, 2, 10000)

fig, axes = plt.subplots(1, 2, figsize=(9, 3))
axes[0].hist(xs, bins=50)
axes[0].set_title("Samples")
axes[1].hist(
    scipy.stats.norm.cdf(xs, 5, 2),
    bins=50
)
axes[1].set_title("CDF(samples)")

結果は次のプロットになります。

正規分布のサンプルとサンプルの累積分布関数を示すプロット。

これがなぜ起こるのか理解できません。私はそれがCDFの定義とPDFとの関係に関係していると思いますが、何かが欠けています...

誰かが私にその主題に関するいくつかの読書を教えてくれたり、私が主題に関するいくつかの直観をつかむのを手伝ってくれたりしていただければ幸いです。

編集:CDFは次のようになります。

サンプリングされた分布のCDF


2
累積分布関数を計算します。FX(X)
ザンション

2
これは逆累積分布関数シミュレーション手法の基礎であるため、シミュレーションに関する本では、このプロパティの証明(連続RVの場合)が見つかります。
西安

2
google-ing 確率積分変換
ザカリーブルーメンフェルド

1
@ Xi'an結論は、連続ランダム変数にのみ当てはまることを指摘するのは良いことです。この結果は、離散確率変数に誤って使用されることがあります。一方、多くの証拠注ステップ関与の厳密な単調性を前提としていたも、強すぎる仮定。次のリンクは、このトピックに関する厳密な要約を提供します。people.math.ethz.ch/P(F(X)x)=P(XF1(x))F
embrecht

@Zhanxiong必要な唯一の条件は、それがcàdlàgであることです。F
AdamO

回答:


19

は連続的で増加していると仮定します。を定義し、が値を取ることに注意してください。次に、 FXZ=FX(X)Z[0,1]

FZ(x)=P(FX(X)x)=P(XFX1(x))=FX(FX1(x))=x.

一方、が値を取る一様ランダム変数である場合、 U[0,1]

FU(x)=RfU(u)du=0xdu=x.

したがって、すべてのです。FZ(x)=FU(x)x[0,1]


Zに均一(0、1)分布があるということですか?
StatsSorceress

8

直感的には、おそらくをパーセンタイル関数と考えるのが理にかなっています。たとえば、DFからランダムに生成されたサンプルのは下回ると予想されます。あるいは、(逆画像を考える、それ自体は適切な逆関数ではない)は「分位」関数です。つまり、は、サンプルの割合の後ろにあるポイントです。機能的構成は、可換です。F(x)F(x)FxF1x=F1(p)xpFF1=λF1F

均一分布は、パーセンタイル関数に等しい分位関数を持つ唯一の分布です。これらは恒等関数です。したがって、画像空間は確率空間と同じです。は、連続するランダム変数を等しい尺度で(0、1)空間にマッピングします。任意の2つのパーセンタイル場合、a < b P F 1a < x < F 1b = P a < F X < b = b aFa<bP(F1(a)<x<F1(b))=P(a<F(X)<b)=ba


私は何時間も苦労しましたが、最終的に、派生したランダム変数が均一に分布する理由をクリックしました。あなたの答えは本当に役に立ちました、どうもありがとう。1が乗法の恒等式である代数のように見えます。Y=F(X)
アディティアP
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.