もし、

9

：次の設定を想定し
ましょ $Z_i = \min\{k_i, X_i\}, i=1,...,n$ 。また、 $X_i \sim U[a_i, b_i], \; a_i, b_i >0$ 。さらに、 $k_i = ca_i + (1-c)b_i,\;\; 0<c<1$ すなわち $k_i$ は、それぞれのサポートの境界の凸状の組み合わせです。 $c$ はすべての共通です $i$ 。

私は考えて私が持っているの分布 $Z_i$ 権利を：それは混合分布。
連続部分

X_{i} \in [a_{i}, k_{i}), Z_{i} = X_{i} \Rightarrow Pr (Z_{i} \leq z_{i}) = \frac{z_{i} - a_{i}}{b_{i} - a_{i}}

$X_i \in [a_i, k_i), Z_i=X_i \Rightarrow \Pr(Z_i \le z_i) = \frac {z_i-a_i}{b_i-a_i}$ あり、不連続部分と離散部分があります。確率質量集中：

Pr (Z_{i} = k_{i}) = Pr (X_{i} > k_{i}) = 1 - Pr (X_{i} \leq k_{i})

$\Pr(Z_i=k_i) = \Pr(X_i > k_i) = 1- \Pr(X_i \le k_i)$

= 1 - \frac{k_{i} - a_{i}}{b_{i} - a_{i}} = 1 - \frac{(1 - c) (b_{i} - a_{i})}{b_{i} - a_{i}} = c

$= 1- \frac {k_i - a_i}{b_i-a_i} = 1-\frac {(1-c)(b_i-a_i)}{b_i-a_i} =c$

したがって、全体として

F_{Z_{i}} (z_{i}) = {\begin{cases} 0 z_{i} < a_{i} \\ \frac{z_{i} - a_{i}}{b_{i} - a_{i}} a_{i} \leq z_{i} < k_{i} \\ 1 k_{i} \leq z_{i} \end{cases}

$F_{Z_i}(z_i) = \begin{cases} 0\qquad z_i<a_i\\ \\ \frac {z_i-a_i}{b_i-a_i}\qquad a_i\le z_i<k_i \\ \\1\qquad k_i\le z_i\end{cases}$

一方、「離散/連続」質量/密度関数の混合の場合、区間外側では $0$ であり、均一な、の密度である連続部分がありますしかしため、それが正の確率質量集中で。 $[a_i, k_i]$ $U(a_i, b_i)$ $\frac {1}{b_i-a_i}$ $a_i\le z_i<k_i$ $c >0$ $z_i = k_i$

総じて、それは現実を統一することを意味します。

確率変数の分布および/またはモーメントを $S_n \equiv \sum_{i=1}^n Z_i$ として導出したり、それについて何かを述べたりしたい。 $n\rightarrow \infty$

、が独立している場合、 asます。近似としても、その部分を「無視」できますか？次に、間隔範囲のランダム変数が残され、 "無検閲"になる途中の検閲された制服の合計のように見えるため、おそらくいくつかの中心極限定理...だから、何か提案はありますか？ $X_i$ $\Pr(S_n = \sum_i^nk_i) = c^n \rightarrow 0$ $n\rightarrow \infty$ $[\sum_{i=1}^na_i,\; \sum_{i=1}^nk_i)$

PS：この質問は関連しており、打ち切り変数の合計の分布を導き出しますが、@ Glen_bの答えは私が必要とするものではありません。これは研究なので、宿題のように扱ってください。一般的な提案や文献への参照で十分です。

— アレコスパパドプロス
ソース

あなたがそれを必要とする場合、分布書き込みよう適当で、、ここではボレル集合です。

Z_{i}

$Z_i$

μ_{Z_{i}} (B) = P (Z_{i} \in B) = \int_{B} g (t) d t + c I_{B} (k_{i})

$\mu_{Z_i}(B)=P(Z_i\in B)=\int_B g(t)\,dt +c\,I_B(k_i)$

g

$g$

B

$B$

— 禅

@禅私はすでに配布が不連続であるという質問で書いた。またのRHSこのことを、それが明らかになり、密度の略が、確率のため私はコンパクトな表記を好むん-そして。

f

$f$

f

$f$

[a_{i}, k_{i})

$[a_i,k_i)$

k_{i}

$k_i$

— Alecos Papadopoulos 2014

私の知る限り、この表記はpdfであり、pmfは存在しません。混合分布を正確に記述するための適切な数学言語があります。あなたが研究を発表するとき、この表記法は受け入れられないと思います。もちろん私の意見です。あなたはいつも好きなようにそれをするべきです。

f

$f$

— 禅

@Zen Publishingははるかに先を行っています。実際、レビュー担当者は、確立されていない表記法を見ると眉をひそめます。これは、多くの行で段階的な分布を記述したい場合の単なる省略形です。たとえば、以前のコメントで使用したような、確立された表記法に対する「賛成意見」はありません。

— Alecos Papadopoulos 2014

5

私はヘンリーのヒントに従って、 Lyapunovをチェックします。とが適切に動作する限り、分布が混在しているという事実は問題になりません。各、、である特定のケースのシミュレーションは、正規性が良いことを示しています。 $\delta=1$ $a_i$ $b_i$ $a_i=0$ $b_i=1$ $k_i=2/3$ $i\geq 1$

xbar <- replicate(10^4, mean(pmin(runif(10^4), 2/3)))
hist((xbar - mean(xbar)) / sd(xbar), breaks = "FD", freq = FALSE)
curve(dnorm, col = "blue", lwd = 2, add = TRUE)

CLT

— 禅
ソース

確かにかなり正常です。知ってよかった。CLTの通常の状態はここでは問題になりませんでした。私の質問は、漸近的な結果を歪め、変更されたCLTを必要とする他の、おそらく微妙な問題があるかどうかでした。実際のシミュレーションでは、合計に入る変数が増えるにつれて、離散的な不連続性の確率が無視できる程度になることが示されています。

— Alecos Papadopoulos 2014

特にありませんが、問題はありません。インデックスなく、それらも同様に動作する有限数と考えてください。それらは、が大きくなるにつれて増加または減少する可能性があり（特定の規則はありません）、それらのどれも他のものよりも過度に大きいわけではありません...それでも、「比較可能な」エンティティのサイズの違いを表します。したがって、リンデバーグの状態は最も確実に保持されます

i

$i$

i

$i$

— Alecos Papadopoulos '26 / 04/14

いいね。次のステップで頑張ってください。興味深い問題のようです。

— Zen

3

ヒント：

仮定すると、固定されており、平均あなたが計算することができる独立している及び分散それぞれの例えば：そしてあなたはを知っています。 $c$ $X_i$ $\mu_i$ $\sigma_i^2$ $Z_i$ $\mu_i=E[ Z_i] = c\frac{a_i+k_i}{2} + (1-c)k_i$ $k_i = ca_i + (1-c)b_i$

次に、とがあまり速く成長しない場合は、リアプノフまたはリンデバーグ条件を使用して、という結論で中心極限定理を適用できますは、標準の正規分布に収束するか、または手を振る意味で収束しますは、平均ほぼ正規分布しますと分散。 $a_i$ $b_i$ $\displaystyle\frac{1}{\sqrt{\sum_1^n \sigma_i^2}}\left(\sum_1^n Z_i - \sum_1^n \mu_i\right)$ $\sum_1^n Z_i$ $\sum_1^n \mu_i$ $\sum_1^n \sigma_i^2$

— ヘンリー
ソース

ありがとう。とは問題はありません。これらはインデックスと共に成長せず、変動します。つまり、CLTは混合分布の確率変数もカバーできると本質的に言っているのですか。

a_{i}

$a_i$

b_{i}

$b_i$

— Alecos Papadopoulos 2014

たとえば、とが固定されている場合、有限分散を持つ独立して同一に分布した確率変数があるため、中心極限定理が適用されます。これが混合分布であるかどうかは、この結果には影響しません。私が言っているのは、平均と分散が妥当なままであれば、確率変数が独立しているが同一に分布していない場合にこれを拡張できるということです。

a_{i}

$a_i$

b_{i}

$b_i$

— ヘンリー

2

この質問での私の主な心配は、私が調査している場合に「通常どおり」CLTを適用できるかどうかでした。ユーザー@Henryは、ユーザー@Zenがシミュレーションでそれを表示できると主張しました。このように励まされて、私は今それを分析的に証明します。

私が最初にやろうとしていることは、混合分布を持つこの変数が「通常の」モーメント生成関数を持っていることを確認することです。示すの期待値、その標準偏差との中心とスケーリングされたバージョンによって。変更の可変式を適用我々は、連続部であることが判明の積率母関数は $\mu_i$ $Z_i$ $\sigma_i$ $Z_i$ $\tilde Z_i = \frac {Z_i-\mu_i}{\sigma_i}$

f_{\tilde{Z}} ({\tilde{z}}_{i}) = σ_{i} f_{Z} (z_{i}) = \frac{σ_{i}}{b_{i} - a_{i}}

$f_{\tilde Z}(\tilde z_i) = \sigma_if_Z(z_i) = \frac {\sigma_i}{b_i-a_i}$

{\tilde{Z}}_{i}

$\tilde Z_i$

{\tilde{M}}_{i} (t) = E (e^{{\tilde{z}}_{i} t}) = \int_{- \infty}^{\infty} e^{{\tilde{z}}_{i} t} d F_{\tilde{Z}} ({\tilde{z}}_{i}) = \int_{{\tilde{a}}_{i}}^{{\tilde{k}}_{i}} \frac{σ_{i} e^{{\tilde{z}}_{i} t}}{b_{i} - a_{i}} d z_{i} + c e^{{\tilde{k}}_{i} t}

$\tilde M_i(t) = E(e^{\tilde z_it}) = \int_{-\infty}^{\infty}e^{\tilde z_it}dF_{\tilde Z}(\tilde z_i) = \int_{\tilde a_i}^{\tilde k_i}\frac{\sigma_ie^{\tilde z_it}}{b_i-a_i}dz_i + ce^{\tilde k_it}$

\Rightarrow {\tilde{M}}_{i} (t) = \frac{σ_{i}}{b_{i} - a_{i}} \frac{e^{{\tilde{k}}_{i} t} - e^{{\tilde{a}}_{i} t}}{t} + c e^{{\tilde{k}}_{i} t}

$\Rightarrow \tilde M_i(t)=\frac {\sigma_i}{b_i-a_i}\frac{e^{\tilde k_it}-e^{\tilde a_it}}{t} +ce^{\tilde k_it}$

{\tilde{k}}_{i} = \frac{k_{i} - μ_{i}}{σ_{i}}, {\tilde{a}}_{i} = \frac{a_{i} - μ_{i}}{σ_{i}}

$\tilde k_i = \frac {k_i-\mu_i}{\sigma_i},\;\; \tilde a_i = \frac {a_i-\mu_i}{\sigma_i}$

素数を使用して導関数を表す場合、モーメント生成関数を正しく指定していれば、を取得する必要があり以降この中央揃えでスケーリングされた確率変数です。実際、導関数を計算し、L'Hopitalのルールを何度も適用して（ゼロでのMGFの値は制限を通じて計算する必要があるため）、代数的操作を行うことで、最初の2つの等式を検証しました。3番目の平等は面倒すぎることがわかりましたが、私はそれが成り立つと信じています。

{\tilde{M}}_{i} (0) = 1, {\tilde{M}}_{i}^{'} (0) = E (\tilde{Z}) = 0 \Rightarrow {\tilde{M}}_{i}^{″} (0) = E ({\tilde{Z}}_{i}^{2}) = Var ({\tilde{Z}}_{i}) = 1

$\tilde M_i(0) = 1, \;\; \tilde M_i'(0) = E(\tilde Z) = 0 \Rightarrow \tilde M_i''(0) = E(\tilde Z_i^2) = \operatorname {Var}(\tilde Z_i)=1$

したがって、適切なMGFがあります。2次のテイラー展開をゼロに近づけると、

\tilde{M} (t) = \tilde{M} (0) + {\tilde{M}}^{'} (0) t + \frac{1}{2} {\tilde{M}}^{″} (0) t^{2} + o (t^{2})

$\tilde M(t) = \tilde M(0) + \tilde M'(0)t +\frac 12\tilde M''(0)t^2 + o(t^2)$

\Rightarrow \tilde{M} (t) = 1 + \frac{1}{2} t^{2} + o (t^{2})

$\Rightarrow \tilde M(t) = 1 + \frac 12t^2+ o(t^2)$

これは、特性関数が（ここでは虚数単位を表す）であることを意味します。 $i$

\tilde{ϕ} (t) = 1 + \frac{1}{2} (i t)^{2} + o (t^{2}) = 1 - \frac{1}{2} t^{2} + o (t^{2})

$\tilde \phi(t) = 1 + \frac 12 (it)^2 + o(t^2)= 1 - \frac 12 t^2 + o(t^2)$

特性関数の特性により、の特性関数は、 $\tilde Z/\sqrt n$

{\tilde{ϕ}}_{\tilde{Z} / \sqrt{n}} (t) = {\tilde{ϕ}}_{\tilde{Z}} (t / \sqrt{n}) = 1 - \frac{t^{2}}{2 n} + o (t^{2} / n)

$\tilde \phi_{\tilde Z/\sqrt n}(t)=\tilde \phi_{\tilde Z}(t/\sqrt n) = 1 - \frac {t^2}{2n} + o(t^2/n)$

独立したランダム変数があるため、の特性関数は $\frac 1{\sqrt n}\sum_i^n\tilde Z_i$

{\tilde{ϕ}}_{\frac{1}{\sqrt{n}} \sum_{i}^{n} {\tilde{Z}}_{i}} (t) = \prod_{i = 1}^{n} {\tilde{ϕ}}_{\tilde{Z}} (t / \sqrt{n}) = \prod_{i = 1}^{n} (1 - \frac{t^{2}}{2 n} + o (t^{2} / n))

$\tilde \phi_{\frac 1{\sqrt n}\sum_i^n\tilde Z_i}(t)= \prod_{i=1}^n\tilde \phi_{\tilde Z}(t/\sqrt n)=\prod_{i=1}^n\left(1 - \frac {t^2}{2n} + o(t^2/n)\right)$

その後

lim_{n \to \infty} {\tilde{ϕ}}_{\frac{1}{\sqrt{n}} \sum_{i}^{n} {\tilde{Z}}_{i}} (t) = lim_{n \to \infty} {(1 - \frac{t^{2}}{2 n})}^{n} = e^{- t^{2} / 2}

$\lim_{n\rightarrow \infty}\tilde \phi_{\frac 1{\sqrt n}\sum_i^n\tilde Z_i}(t) = \lim_{n\rightarrow \infty}\left(1 - \frac {t^2}{2n}\right)^n = e^{-t^2/2}$

よる番号どのように表されます $e$ 。たまたま、最後の項は標準正規分布の特性関数であり、レビーの連続性定理により、

\frac{1}{\sqrt{n}} \sum_{i}^{n} {\tilde{Z}}_{i} \overset{d}{\to} N (0, 1)

$\frac 1{\sqrt n}\sum_i^n\tilde Z_i \xrightarrow{d} N(0,1)$

これはCLTです。変数が同一に分布されていないという事実は、それらの中心化およびスケーリングされたバージョンを検討し、MGF / CHFの2次テイラー展開を検討すると、ビューから「消える」：その近似レベルで、これらの関数は同一であり、すべての違いは漸近的に消える残りの項で圧縮されます。 $Z$

それでも、平均的な振る舞いを考えると、すべての個々の要素からの個々のレベルでの特異な振る舞いが消えるという事実は、混合分布を持つランダム変数のような厄介な生き物を使用すると非常によく示されると思います。

— アレコスパパドプロス
ソース

本当にクールなAlecos。私の考えでは、引数はとのより具体的な条件に依存する必要があります。たとえば、場合、証明はすぐに壊れますか？（私はあなたのアプリケーションではこれが起こらないことを知っています。）あなたはどう思いますか？

a_{i}

$a_i$

b_{i}

$b_i$

(b_{i} - a_{i}) ↓ 0

$(b_i-a_i)\downarrow 0$

— 禅

@Zen独立しているが等しく分布していないrvの分散に関する問題は非常に微妙な問題であり、まだ明確に理解していません。既知のリアプノフまたはリンデバーグの条件は、CLTが保持するためにのみ十分です。これらの条件が満たされていなくても、CLTが保持される場合があります。したがって、分散を制限しない場合、単一の答えはなく、問題は完全にケース固有になると思います。ビリングスリーの本でさえこの問題についてははっきりしていない。問題は、残りがどのようになり、それについて何が言えるかです。

— Alecos Papadopoulos 2014