統計とビッグデータ convergence

1

「root-n」の一貫した推定量という用語が何度も使われることを聞いたことがあります。私が指示したリソースから、「root-n」の一貫した推定量は次のことを意味していると思いました。推定器は真の値に収束します（したがって、「一貫性」という言葉）推定量はレートで収束し1 / n−−√1/n1/\sqrt{n} は収束しないので、これは私を困惑させますか？ここで重要な何かを見逃していますか？1 / n−−√1/n1/\sqrt{n}

10 convergence estimators consistency

4

コックスハザードモデルの生存曲線を解釈するにはどうすればよいですか？

コックス比例ハザードモデルから生存曲線をどのように解釈しますか？このおもちゃの例ではage、kidneyデータの変数にcox比例ハザードモデルがあり、生存曲線を生成するとします。 library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() たとえば、時間、どのステートメントが正しいですか？または両方が間違っていますか？200200200 ステートメント1：被験者は20％残ります（たとえば、人がいる場合、200日目までに、およそ200人が残っているはずです）。 100010001000200200200200200200 ステートメント2：特定の人に対して、彼/彼女は200日目に生存する可能性がます。20%20%20\%200200200 βTxβTx\beta^Tx

9 r survival cox-model likelihood machine-learning deep-learning generative-models machine-learning reinforcement-learning q-learning regression multicollinearity convergence beta-distribution bernoulli-distribution machine-learning self-study pattern-recognition neural-networks stochastic-processes linear

1

確率分布のアンサンブルが完了しているトポロジ

私は、確率分布に関する直感的な理解と、確率分布のほとんどすべてのトポロジーが持っている奇妙な特性との調整にかなり苦労しています。たとえば、混合確率変数考えます。0を中心とし、分散1、確率1のガウスを選択します。XnXnX_n、結果にnを追加します。このような確率変数のシーケンスは、分散が1で、0を中心とするガウス分布に（弱く、全体的に）収束しますが、Xnの平均は常に1であり、分散は+∞に収束します。そのため、このシーケンスが収束するとは言いたくありません。1n1n\frac{1}{n}nnnXnXnX_n111+∞+∞+\infty トポロジーについて忘れていたすべてのことを覚えるのにかなりの時間を費やしましたが、最終的に、そのような例について非常に不満な点を見つけました。シーケンスの制限は従来の分布ではありません。上記の例では、限界は奇妙な「平均1と無限分散のガウス」です。トポロジーの観点から見ると、確率分布のセットは弱点（およびTV、および私が調べた他のすべてのトポロジー）では完全ではありません。次に、次の質問に直面します。確率分布のアンサンブルが完了するようなトポロジは存在しますか？いいえの場合、その不在は確率分布のアンサンブルの興味深い特性を反映していますか？それとも退屈ですか？注：「確率分布」についての質問をしました。これらは、PDFを持たないディラックスなどに収束する可能性があるため、閉じることができません。しかし、対策は弱いトポロジーではまだ閉じられていないので、私の質問は残っています mathoverflowにクロスポスト /mathpro/226339/topologies-for-which-the-ensemble-of-probability-measures-is-complete?noredirect=1#comment558738_226339

9 mathematical-statistics convergence central-limit-theorem topologies

1

確率への収束の定数へのシミュレーション

漸近的な結果は、無限の概念を含むステートメントであるため、コンピュータシミュレーションでは証明できません。しかし、理論が教えているように、物事が実際に進んでいるという感覚を得ることができるはずです。理論的な結果を検討リムn → ∞P（| Xん| >ϵ）=0、ϵ > 0limn→∞P(|Xn|>ϵ)=0,ϵ>0\lim_{n\rightarrow\infty}P(|X_n|>\epsilon) = 0, \qquad \epsilon >0 ここで、はn個の確率変数の関数であり、同一かつ独立して分布していると言います。これは、X nが確率でゼロに収束することを示しています。ここで私が推測する典型的な例は、X nがサンプルの平均からサンプルのiidrvの一般的な期待値を引いた場合です。バツんXnX_nんnnバツんXnX_nバツんXnX_n バツん= 1んΣi = 1んY私− E[ Y1]Xn=1n∑i=1nYi−E[Y1]X_n = \frac 1n\sum_{i=1}^nY_i - E[Y_1] 質問：必ずしも有限サンプルからのコンピュータシミュレーション結果を使用して、上記の関係が「現実の世界で具体化する」ことを誰かに説得力をもって示すにはどうすればよいでしょうか。特に定数への収束を選択したことに注意してください。以下に私のアプローチを回答として示します。より良いものを望んでいます。更新：頭の後ろの何かが気になりました-そして私は何を見つけました。私は古い質問を掘り起こし、最も興味深い議論が回答の1つに対するコメントで行われました。そこでは、@ Cardinalは一貫しているが、その分散は漸近的にゼロではなく有限であるという推定量の例を提供しました。したがって、私の質問のより難しい変形は次のようになります：この統計が非ゼロで有限の分散を漸近的に維持する場合、統計によって確率が定数に収束することをシミュレーションでどのように示すのですか？

9 mathematical-statistics simulation convergence asymptotics

2

Distribution \ CLTの収束

その所与の、条件競合製品。です。は限界的な歪みがあります。Poisson（）の場合、は正の定数です。N=nN=nN = nYYYχ2(2n)χ2(2n)\chi ^2(2n)NNNθθ\thetaθθ\theta 、それを示すよう、分布です。（Y − E （Y ））/ √θ→∞θ→∞\theta \rightarrow \infty (Y−E(Y))/Var(Y)−−−−−−√→N(0,1) (Y−E(Y))/Var⁡(Y)→N(0,1)\space \space (Y - E(Y))/ \sqrt{\operatorname{Var}(Y)} \rightarrow N(0,1) 誰かがこれを解決するための戦略を提案できますか？CLT（Central Limit Theorem）を使用する必要があるようですが、に関する情報を独自に取得するのは難しいようです。サンプルを取り、を生成するために導入できるrvはありますか？YYYYYY これは宿題なのでヒントをいただければ幸いです。

9 self-study poisson-distribution conditional-probability convergence central-limit-theorem

4

（相互作用）マルチモーダル後部用MCMC

MCMCを使用して、特に互いに離れている多くのモードを持つ事後からサンプリングしようとしています。ほとんどの場合、これらのモードの1つだけが私が探している95％のhpdを含んでいるようです。調整されたシミュレーションに基づいてソリューションを実装しようとしましたが、実際にはある「キャプチャ範囲」から別の「キャプチャ範囲」に移行するとコストがかかるため、満足のいく結果が得られません。結果として、より効率的なソリューションは、さまざまな開始点から多くの単純なMCMCを実行し、MCMCを相互に作用させることによって主要なソリューションに飛び込むことだと私には思われます。そのようなアイデアを実装する適切な方法があるかどうかを知っていますか？注：私が探しているものに近いように見える紙http://lccc.eecs.berkeley.edu/Papers/dmcmc_short.pdf（分散型マルコフチェーンモンテカルロ、ローレンスマレー）を見つけましたが、デザインが本当にわかりません関数。RiRiR_i [編集]：回答の欠如は、私の最初の問題に対する明確な解決策がないことを示しているようです（異なる開始点からの同じターゲット分布からサンプリングする複数のMCMCが互いに相互作用します）。本当？なぜそんなに複雑なのですか？ありがとう

9 sampling mcmc inference convergence

1

分布を制限しています

ましょう(Xn)（バツん）(X_n) IIDの配列であるN(0,1)N（0、1）\mathcal N(0,1)ランダム変数。定義S0=0S0=0S_0=0及びSn=∑nk=1XkSn=∑k=1nXkS_n=\sum_{k=1}^n X_kためのn≥1n≥1n\geq 1。1の極限分布を見つける1n∑k=1n|Sk−1|(X2k−1)1n∑k=1n|Sk−1|(Xk2−1)\frac1n \sum_{k=1}^{n}|S_{k-1}|(X_k^2 - 1) この問題は、中心極限定理の章にある、確率論の問題集にあります。以降Sk−1Sk−1S_{k-1}とXkXkX_k、独立しているE(|Sk−1|(X2k−1))=0E(|Sk−1|(Xk2−1))=0E(|S_{k-1}|(X_k^2 - 1))=0とV（ | Sk − 1|（X2k− 1 ））= E（S2k − 1（X2k− 1 ）2）= E（S2k − 1）E（X2k− 1 ）2）= 2 （k − 1 ）V（|Sk−1|（バツk2−1））=E（Sk−12（バツk2−1）2）=E（Sk−12）E（バツk2−1）2）=2（k−1）V(|S_{k-1}|(X_k^2 - 1)) = E(S_{k-1}^2(X_k^2 - 1)^2)= E(S_{k-1}^2)E(X_k^2 - 1)^2) =2(k-1) ことに注意してください| Sk − 1| （X2k− 1 ）|Sk−1|（バツk2−1）|S_{k-1}|(X_k^2 …

8 self-study normal-distribution convergence central-limit-theorem

3

場合行いと暗示？

質問：バツん→dバツXn→dXX_n\stackrel{d}{\rightarrow}XおよびYん→dY⟹？バツん+Yん→dバツ+ YYn→dY⟹?Xn+Yn→dX+YY_n\stackrel{d}{\rightarrow}Y \stackrel{?}{\implies} X_n+Y_n\stackrel{d}{\rightarrow}X+Y これは一般的には当てはまりません。Slutskyの定理は、収束の一方または両方が可能性がある場合にのみ適用されます。しかし、それが成り立つ事例はありますか？たとえば、シーケンスとが独立している場合。バツんXnX_nYんYnY_n

8 distributions convergence asymptotics slutsky-theorem

2

条件付き期待値との収束に関する技術的ポイント

ような一連の非負の変数があります E （X n | C n）= C nXnXnX_nE(Xn|Cn)=Cnn2E(Xn|Cn)=Cnn2E(X_n|C_n)=\frac{C_n}{n^2} ここで、はほぼ確実に収束する確率変数のシーケンスです。 1CnCnC_n111 がほぼ確実に0になる傾向があると結論付けられますか？XnXnX_n 注：は有限和のシーケンスで置き換えることができます。質問は本質的に同じままであり、ジェイソンによって提供される答えはまったく同じように機能します（Borel-Cantelliの議論を参照）。1n21n2\frac{1}{n^2}

8 probability convergence conditional-expectation

1

MAPがMLEに収束するのはなぜですか？

ケビンマーフィーの「機械学習：確率論的視点」の3.2章では、著者は「数値ゲーム」と呼ばれる例でベイズの概念学習を示していからサンプルを観察した後、サンプルを生成したルールを最もよく表す仮説を選びます。たとえば、「偶数」または「素数」。{ 1 、。。。、100 } 時間NNN{ 1 、。。。、100 }{1、。。。、100}\{1,...,100\}hhh 最大事後推定と最尤推定は次のように定義されます。 h^M A P= arg最高h p （D | h ）p （h ）= arg最高h[ ログp （D | h ）+ ログp （h ）] 、h^MあP=arg⁡最高h p（D|h）p（h）=arg⁡最高h[ログ⁡p（D|h）+ログ⁡p（h）]、\hat h_\mathrm{MAP}={\arg\max}_h\ p(\mathcal{D}|h)p(h)={\arg\max}_h[\log p(\mathcal{D}|h)+\log p(h)], h^M L E= arg最高h p （D | h ）= arg最高hログp （D | h ）、h^MLE=arg⁡最高h p（D|h）=arg⁡最高hログ⁡p（D|h）、\hat …

8 self-study bayesian maximum-likelihood convergence

1

均一な収束を伴わない点ごとの収束の実用性

動機モデル選択後の推論に関連して、Leeb＆Pötscher（2005）は次のように書いています。パラメータに関する均一性が（少なくとも局所的に）漸近分析の重要な問題であることは以前から知られていましたが、このレッスンは、多くの場合、点ごとの漸近結果（つまり、固定された各真のパラメータ値を保持する結果）。幸運なことに、この健忘症とその結果としての実践は、十分に「規則的な」モデルで十分に「規則的な」推定量しか考慮されていない限り、劇的な結果はありません。ただし、モデル選択後の推定量は非常に「不規則」であるため、均一性の問題は復讐でここに浮上します。バックグラウンド均一な収束推定器が分布内で一様に収束し（wrt）、確率変数に分布するとします。次に、与えられた精度に対して、サンプルサイズを常に見つけることができるため、すべてのに対して、の分布と（つまり、制限分布）は、ごとに最大でになります。αZε>0Nεα θ N（α）ZεN>Nθ^ん（α ）θ^n(α)\hat\theta_n(\alpha)αα\alphaZZZε > 0ε>0\varepsilon>0NεNεN_{\varepsilon}αα\alphaθ^ん（α ）θ^n(α)\hat\theta_{n}(\alpha)ZZZεε\varepsilonn > Nn>Nn>N これは実際に役立ちます：実験を設計するとき、対応する見つけることにより、不正確さを希望する任意の小さいレベルの制限できます。N εεε\varepsilonNεNεN_{\varepsilon} サイズ与えられたサンプルについて、不正確さを制限するを見つけることができます。ε NNNNεNεN\varepsilon_N 点単位の（ただし不均一）収束一方、推定量が点ごとに収束する（wrt）- 一様ではない -いくつかの確率変数に分布すると仮定します。不均一性に起因する、精度が存在任意のサンプルサイズになるように、我々は常に値見つけることができるそのような分布の距離そのと分布（すなわち、極限分布）少なくともあろういくつかのために。αZεN>0NαN ψ N（αN）ZεN>Nψ^ん（α ）ψ^n(α)\hat\psi_n(\alpha)αα\alphaZZZεN> 0εN>0\varepsilon_N>0NNNαNαN\alpha_Nψ^ん（αN）ψ^n(αN)\hat\psi_{n}(\alpha_N)ZZZεε\varepsilonn > Nn>Nn>N いくつかの考え：これは大きさを教えてくれません。εNεN\varepsilon_N 実験を設計するとき、適切な見つけることによって、任意ので不正確さを制限することはできません。しかし、おそらくをいくつかの低レベルでバインドできれば、心配する必要はありません。しかし、私たちが望む場所に常にバインドできるとは限りません。N ε ε Nεε\varepsilonNεNεN_{\varepsilon}εNεN\varepsilon_N サイズ指定されたサンプルの不正確さを制限するが見つかるかどうかはわかりません。 NεNεN\varepsilon_NNNN ご質問均一な収束の欠如により、推定量はほとんど役に立たなくなりますか？（おそらく、多くの論文が点ごとの収束に焦点を当てているため、答えは「いいえ」です...）いいえの場合、不均一収束推定量が役立ついくつかの基本的な例は何ですか？参照： Leeb、H.＆Pötscher、BM（2005）。モデルの選択と推論：事実とフィクション。計量経済理論、21（01）、21-59。

8 mathematical-statistics convergence asymptotics estimators

2

ポリシーと値の反復アルゴリズムの収束条件

ポリシーと値の反復アルゴリズムを使用して、マルコフ決定プロセスの問題を解決できます。収束に必要な条件を理解するのに苦労しています。最適なポリシーが2つのステップ（つまり、反復iとi + 1）の間に変化しない場合、アルゴリズムが収束したと結論付けることができますか？そうでない場合、いつですか？

8 algorithms markov-process convergence

2

確率におけるイプシロン収束とは何ですか？

収束確率の式はP[ |バツん−X∞| >ϵ]→0P[|Xn−X∞|>ϵ]→0P[|X_n − X_\infty| \gt \epsilon ]\to 0で、式を使用して問題を解決できます。誰もが直感的にそれを説明できますか（私が5歳のように）、特にに関してεϵ\epsilonは？

8 probability convergence intuition

2

繰り返し再重み付けされた最小二乗法がロジスティック回帰に使用されたときに収束しない理由は何ですか？

私はRでglm.fit関数を使用して、パラメーターをロジスティック回帰モデルに適合させています。デフォルトでは、glm.fitは繰り返し重み付けされた最小二乗法を使用してパラメーターを近似します。このアルゴリズムをロジスティック回帰に使用すると、収束に失敗する理由は何ですか？

8 r logistic generalized-linear-model convergence irls

1

ガウス混合の期待値最大化の限界としてのK平均アルゴリズムの導出

クリストファー・ビショップは、完全なデータ対数尤度関数の期待値を定義します（つまり、観測可能なデータXと潜在的なデータZの両方が与えられていると仮定します）。 EZ[lnp(X,Z∣μ,Σ,π)]=∑n=1N∑k=1Kγ(znk){lnπk+lnN(xn∣ μk,Σk)}(1)(1)EZ[ln⁡p(X,Z∣μ,Σ,π)]=∑n=1N∑k=1Kγ(znk){ln⁡πk+ln⁡N(xn∣ μk,Σk)} \mathbb{E}_\textbf{Z}[\ln p(\textbf{X},\textbf{Z} \mid \boldsymbol{\mu}, \boldsymbol{\Sigma}, \boldsymbol{\pi})] = \sum_{n=1}^N \sum_{k=1}^K \gamma(z_{nk})\{\ln \pi_k + \ln \mathcal{N}(\textbf{x}_n \mid \ \boldsymbol{\mu}_k, \boldsymbol{\Sigma}_k)\} \tag 1 ここで、γ(znk)γ(znk)\gamma(z_{nk})は次のように定義されます： πkN(xn∣ μk,Σk)∑Kj=1πjN(xn∣ μj,Σj)(2)(2)πkN(xn∣ μk,Σk)∑j=1KπjN(xn∣ μj,Σj) \frac{\pi_k \mathcal{N}(\textbf{x}_n \mid \ \boldsymbol{\mu}_k, \boldsymbol{\Sigma}_k)}{\sum_{j=1}^K \pi_j \mathcal{N}(\textbf{x}_n \mid \ \boldsymbol{\mu}_j, \boldsymbol{\Sigma}_j)} \tag 2 説明したように、アイデアは、混合成分の共分散行列がϵIϵI\epsilon \textbf{I}によって与えられるガウス混合モデルを考えることです。ここで、ϵϵ\epsilonは、すべての成分によって共有される分散パラメーターです。それ： p(x∣μk,Σk)=1(2πϵ)M2exp{−12ϵ∥x−μk∥2}(3)(3)p(x∣μk,Σk)=1(2πϵ)M2exp⁡{−12ϵ‖x−μk‖2} p(\textbf x \mid …

8 self-study maximum-likelihood expected-value convergence expectation-maximization

タグ付けされた質問 「convergence」

タグ付けされた質問「convergence」