タグ付けされた質問 「self-study」

クラスまたは自習用に使用される教科書、コース、またはテストからの定期的な練習。このコミュニティのポリシーは、完全な回答ではなく、そのような質問に「役立つヒントを提供する」ことです。

1
ガウス混合の期待値最大化の限界としてのK平均アルゴリズムの導出
クリストファー・ビショップは、完全なデータ対数尤度関数の期待値を定義します(つまり、観測可能なデータXと潜在的なデータZの両方が与えられていると仮定します)。 EZ[lnp(X,Z∣μ,Σ,π)]=∑n=1N∑k=1Kγ(znk){lnπk+lnN(xn∣ μk,Σk)}(1)(1)EZ[ln⁡p(X,Z∣μ,Σ,π)]=∑n=1N∑k=1Kγ(znk){ln⁡πk+ln⁡N(xn∣ μk,Σk)} \mathbb{E}_\textbf{Z}[\ln p(\textbf{X},\textbf{Z} \mid \boldsymbol{\mu}, \boldsymbol{\Sigma}, \boldsymbol{\pi})] = \sum_{n=1}^N \sum_{k=1}^K \gamma(z_{nk})\{\ln \pi_k + \ln \mathcal{N}(\textbf{x}_n \mid \ \boldsymbol{\mu}_k, \boldsymbol{\Sigma}_k)\} \tag 1 ここで、γ(znk)γ(znk)\gamma(z_{nk})は次のように定義されます: πkN(xn∣ μk,Σk)∑Kj=1πjN(xn∣ μj,Σj)(2)(2)πkN(xn∣ μk,Σk)∑j=1KπjN(xn∣ μj,Σj) \frac{\pi_k \mathcal{N}(\textbf{x}_n \mid \ \boldsymbol{\mu}_k, \boldsymbol{\Sigma}_k)}{\sum_{j=1}^K \pi_j \mathcal{N}(\textbf{x}_n \mid \ \boldsymbol{\mu}_j, \boldsymbol{\Sigma}_j)} \tag 2 説明したように、アイデアは、混合成分の共分散行列がϵIϵI\epsilon \textbf{I}によって与えられるガウス混合モデルを考えることです。ここで、ϵϵ\epsilonは、すべての成分によって共有される分散パラメーターです。それ: p(x∣μk,Σk)=1(2πϵ)M2exp{−12ϵ∥x−μk∥2}(3)(3)p(x∣μk,Σk)=1(2πϵ)M2exp⁡{−12ϵ‖x−μk‖2} p(\textbf x \mid …

1
共分散のガウスの混合物のためのEMアルゴリズムの限界ケースとしてK-手段に行く
私の目標は、K平均アルゴリズムが実際にガウス混合の期待値最大化アルゴリズムであり、すべての成分がの範囲の共分散を確認することです。σ2Iσ2I\sigma^2 Ilimσ→0limσ→0\lim_{\sigma \to 0} 確率変数Xの観測のデータセット{x1,…,xN}{x1,…,xN}\{x_1, \dots ,x_N\}があるとします。 M平均の目的関数は、 J = \ sum_ {n = 1} ^ {N} \ sum_ {k = 1} ^ {K} r_ {nk} || x_n-\ mu_k || ^ 2 で与えられます。r_ {nk}は、クラスターkへのx_nのハード割り当てのバイナリインジケーター変数です。 (データポイントx_nがクラスターkに割り当てられている場合、j \ ne kに対してr_ {nk} = 1およびr_ {nj} = 0)。 K平均アルゴリズムは、収束するまで反復によってJを最小化します。これには、2つの連続するステップが含まれます。 (E)最小化XXXJ=∑n=1N∑k=1Krnk||xn−μk||2J=∑n=1N∑k=1Krnk||xn−μk||2J = \sum_{n=1}^{N}\sum_{k=1}^{K} r_{nk} ||x_n …


1
カンテッリの不等式証明
私は次の不平等を証明しようとしています: 編集:私がこの質問を投稿した直後に、私は証明するように求められている不平等がカンテリの不平等と呼ばれていることを発見しました。これを書いたとき、この特定の不平等に名前があることに気づきませんでした。私はGoogleを介して複数の証明を見つけたので、厳密に言えば、もうソリューションは必要ありません。ただし、元々あったように、であるという事実を呼び出す証拠が見つからないため、この質問を続けています。意図されました。t=E(t−X)≤E[(t−X)IX&lt;t]t=E(t−X)≤E[(t−X)IX&lt;t]t=E(t-X)\leq E[(t-X)\mathbb{I}_{Xt)またはむしろ。以来、、我々は交換することができると後者の左側を。 E(X)=0XX−E(X)P(X&gt;t)≤V(X)t2P(X&gt;t)≤V(X)t2P(X>t)\leq \frac{V(X)}{t^2}E(X)=0E(X)=0E(X)=0XXXX−E(X)X−E(X)X-E(X) ここが先に進むのに苦労しているところです。という事実を使用する方法がわかりません。再度、以降、我々は、で置換することができる のための。これはと同等です。次に、不等式の右辺の分母のをに書き換えます。これは、中間の項が欠落するため、簡略化され。しかし、私はここからどこへ行くことができるかもわかりません。これをとしてさらに書き換えることができますが、少なくとも項が正しい場所にあります。E (X )= 0 T - E (X )T E (T - X )T 2 [ E (T - X )] 2 t 2 − [ E (X )] 2t=E(t−X)≤E[(t−x)IX&lt;t]t=E(t−X)≤E[(t−x)IX&lt;t]t=E(t-X)\leq E[(t-x)\mathbb{I}_{X<t}]E(X)=0E(X)=0E(X)=0t−E(X)t−E(X)t-E(X)tttE(t−X)E(t−X)E(t-X)t2t2t^2[E(t−X)]2[E(t−X)]2[E(t-X)]^2t2−[E(X)]2t2−[E(X)]2t^2-[E(X)]^2V (X )+ t 2t2+V(X)−E(X2)t2+V(X)−E(X2)t^2+V(X)-E(X^2)V(X)+t2V(X)+t2V(X)+t^2 明らかに、ここにに関連する何かが欠けていますが、率直に言って、この用語の処理方法がまったくわかりません。私はこの用語が私に言っていることを概念的に理解しています。直感的には、が未満に制限されている場合、の期待値は同じ量よりも小さくなります。つまり、前者は否定的である可能性が高く、後者は肯定的である必要があります。しかし、私はこの事実を証明にどのように使用できるかわかりません。T - X X TE(t−X)≤E[(t−X)IX&lt;t]E(t−X)≤E[(t−X)IX&lt;t]E(t-X) \leq E[(t-X)\mathbb{I}_{X<t}]t−Xt−Xt-XXXXttt 簡単にするために内側を「配布」してみましたが...... E[(t−X)IX&lt;t]=E[tIX&lt;t−XIX&lt;t]=tP(X&lt;t)−?E[(t−X)IX&lt;t]=E[tIX&lt;t−XIX&lt;t]=tP(X&lt;t)−?E[(t-X)\mathbb{I}_{X<t}]=E[t\mathbb{I}_{X<t} …

1
ここで、
私は期待を計算しようとしています任意のためのC &lt; 0(のためのC &gt; 0ならば期待が無限である)Xが対数正規分布している、すなわちログ(X )〜N (μ 、σ )。E[ ec X]E[ecX]E[e^{cX}]c &lt; 0c&lt;0c<0c &gt; 0c&gt;0c>0バツXXログ(X)〜N(μ 、σ)log⁡(X)∼N(μ,σ)\log(X) \sim N(\mu, \sigma) 私の考えは、期待値を積分として書くことでしたが、どうすればよいかわかりませんでした: E[ ec X] = 12つのσπ−−−√∫∞01バツexp( c x − (ログX - μ )22つのσ2) dバツE[ecX]=12σπ∫0∞1xexp⁡(cx−(log⁡x−μ)22σ2)dxE[e^{cX}] = \frac{1}{\sqrt{2\sigma\pi}}\int_0^\infty \frac{1}{x}\exp\left(cx - \frac{(\log x - \mu)^2}{2\sigma^2}\right)dx 私は伊藤の公式も試しました(実際のタスクはを見つけることです。ここでXは幾何学的なブラウン運動ですが、マルコフプロセスを見ているので、上記の問題に還元されます)。しかし、それもあまり有望に見えませんでした。誰かが私を助けてくれますか?E[ ec XT∣ Xt= x ]E[ecXT∣Xt=x]E[e^{cX_T} \mid X_t = …

1
特性関数から密度を見つける方法は?
分布には特徴的な機能があります ϕ(t)=(1−t2/2)exp(−t2/4), −∞&lt;t&lt;∞ϕ(t)=(1−t2/2)exp⁡(−t2/4), −∞&lt;t&lt;∞\phi(t) = (1-t^2/2)\exp(-t^2/4),\ -\infty \lt t \lt \infty 分布が完全に連続であることを示し、分布の密度関数を記述します。 試み: ∫∞- ∞| (1− t2/ 2)exp(− t2/ 4) | dt = (− 2 / t )(1 − t2/ 2)exp(− t2/ 4)−2exp(− t2/ 4) |0- ∞∫−∞∞|(1−t2/2)exp⁡(−t2/4)|dt=(−2/t)(1−t2/2)exp⁡(−t2/4)−2exp⁡(−t2/4)|−∞0\int_{-\infty}^{\infty}|(1-t^2/2)\exp(-t^2/4)|dt =(-2/t)(1-t^2/2)\exp(-t^2/4)-2\exp(-t^2/4)|_{-\infty}^{0} 以下のための同様の結果以来トンが乗されます。t[ 0 、∞ ][0,∞][0,\infty]ttt 積分が正しく行われたかどうかはよくわかりませんが、\ phi(t)の絶対値が\ inftyϕ (t )ϕ(t)\phi(t)より小さいことを示すことができれば、関数は完全に連続です。∞∞\infty

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

2
最尤コインパラメーター推定の期待値
コインを回投げるときに、コインパラメーター最尤推定値を計算したいコイントス実験があるとします。二項尤度関数の導関数計算した後、P ^ X(1-P)^ {NX} {Xを選択\ n}はL(p)を=、Iは最適値取得pがあると、P ^ {*} = \ FRAC {x} {n}、xは成功の数です。pppnnnL(p)=(nx)px(1−p)n−xL(p)=(nx)px(1−p)n−x L(p) = { n \choose x } p^x (1-p)^{n-x} p ∗ = xppp xp∗=xnp∗=xnp^{*} = \frac{x}{n}xxx 私の質問は次のとおりです。 このpの最尤推定の期待値/分散をどのように計算しpppますか? L(p ^ {*})の期待値/分散を計算する必要がありL(p∗)L(p∗)L(p^{*})ますか? はいの場合、どうすればよいですか?

3
ランダムウォーク:チェス盤の王
3×3のチェス盤での2人の王のランダムウォークについて質問があります。 各王はこのチェス盤上で等確率でランダムに動いています-垂直、水平、斜め。2人の王が同じチェス盤で互いに独立して動いています。どちらも同じ正方形から始まり、その後独立して移動します。 が無限大になると、それらの両方が同じ正方形にある時間の確率をどのように見つけることができますか?nnnnnnn

2
2サンプルの指数分布の尤度比
ましょとそれぞれのpdfファイル持つ2つの独立した確率変数であります:XXXYYY f(x;θi)={1θie−x/θi0&lt;x&lt;∞,0&lt;θi&lt;∞0elsewheref(x;θi)={1θie−x/θi0&lt;x&lt;∞,0&lt;θi&lt;∞0elsewheref \left(x;\theta_i \right) =\begin{cases} \frac{1}{\theta_i} e^{-x/ {\theta_i}} \quad 0<x<\infty, 0<\theta_i< \infty \\ 0 \quad \text{elsewhere} \end{cases} ため。をテストするために、2つの独立したサンプルが描画されます。これらの分布から、サイズがおよびがに対してです。は、下で分布を持つ統計量の関数として記述できることを示す必要があります。i=1,2i=1,2i=1,2H0:θ1=θ2H0:θ1=θ2H_0: \theta_1 =\theta_2 H1:θ1≠θ2H1:θ1≠θ2H_1 : \theta_1 \neq \theta_2 n1n1n_1n2n2n_2ΛΛ\LambdaFFFH0H0H_0 この分布のmleはであるため、LRT統計は次のようになります(ここではいくつかの面倒な手順を省略しています)。θ^=x¯θ^=x¯\hat{\theta}=\bar{x} Λ=x¯n1y¯n2(n1+n2)n1x¯+n2y¯Λ=x¯n1y¯n2(n1+n2)n1x¯+n2y¯ \Lambda =\frac{\bar{x}^{n_1} \bar{y}^{n_2} \left( n_1+n_2 \right)}{n_1 \bar{x}+n_2 \bar{y}} 私は、分布が2つの独立したカイ2乗確率変数の商として定義されていることを知っています。さらに、がnull、および。FFFXi,Yi∼Γ(1,θ1)Xi,Yi∼Γ(1,θ1)X_i,Y_i \sim \Gamma \left( 1,\theta_1 \right)∑Xi∼Γ(n1,θ1)∑Xi∼Γ(n1,θ1)\sum X_i \sim \Gamma \left(n_1 ,\theta_1 \right)∑Yi∼Γ(n2,θ1)∑Yi∼Γ(n2,θ1)\sum Y_i \sim …

1
円に均一に分布した点をどのように生成できますか?
Rで450のデータポイントを生成しようとしています。半径が異なる(1、2.8、および5の)円形バンドにそれぞれ分散した3つの異なるセット150があります。 特に、The Elements of Statistical Learningのp546の最初のグラフを再現したいと思っています。 このデータを生成する可能性があるRコードの支援に感謝します。 ありがとう!

2
nが増加すると、t値は仮説検定で増加しますが、tテーブルは正反対です。どうして?
以下のための式仮説検定では、次式で与えられる。 T = ˉ X - μtttt = X¯- μσ^/ n−−√。t=バツ¯−μσ^/ん。 t=\frac{\bar{X}-\mu}{\hat \sigma/\sqrt{n}}. 場合が増加すると、T上記式に従って-value増加します。しかし、なぜdf(nの関数)が増加すると、tテーブルの臨界t値が減少するのでしょうか。んんntttttttttdfdf\text{df}んんn

2
カナダの硬貨の相対量の概算
毎日の使用で十分な量のコインのサンプルを単純に取得することから、循環におけるルーニー、ツーニー、クォーター、ダイム、ニックル(およびおそらく廃止されたペニー)の相対量を正確に概算することは可能でしょうか?日常の使用では、たとえば食料品店で購入したときに釣銭として返されるコインを指します。 これは2つの部分からなる質問だと思います。 サンプリング方法は十分ですか、または決定論的なプロセス(変更の収集?)を通じてサンプルを収集しているため、何らかのバイアスが導入されていますか?どのサイズのサンプルが必要ですか? サンプリングが正確な近似に十分である場合、それを使用して、流通している各コインタイプの相対量を決定できますか?または、たとえば、相対量を正確に概算するために必要なサンプルサイズ自体が、流通している各コインタイプの相対量を変化させるのでしょうか。

2
密度が指数関数であるかどうかの確認
これが指数関数的ファミリーに属していないことを証明しようとしています。 f(y|a)=4(y+a)(1+4a);0&lt;y&lt;1,a&gt;0f(y|a)=4(y+a)(1+4a);0&lt;y&lt;1,a&gt;0f(y|a)=4\frac{(y+a)}{(1+4a)} ; 0 < y < 1 , a>0 これが私のアプローチです: f(y|a)=4(y+a)e−log(1+4a)f(y|a)=4(y+a)e−log(1+4a)f(y|a) = 4(y+a)e^{-log(1+4a)} f(y|a)=(4y)(1+ay)e−log(1+4a)f(y|a)=(4y)(1+ay)e−log(1+4a)f(y|a) = (4y)(1+\frac{a}{y})e^{-log(1+4a)} 標準形式と比較すること、及びのみの関数であることを有する、の観点から定義することができないように、単独で、におけるは不可分です。これは、この分布が指数ファミリーに属していないことを示すのに十分ですか?g (a )a a y 1 + ah(y)=4yh(y)=4yh(y) = 4yg(a)g(a)g(a)aaaaaayyy1+ay1+ay1+\frac{a}{y} 私のアプローチを確認してください。

1
ベータ事前分布は二項尤度の下で事後にどのように影響しますか
2つの質問があります。 質問1:可能性が二項であり、事前分布がベータである場合、事後分布がベータ分布であることをどのように示すことができますか 質問2:以前のパラメーターの選択は事後にどのように影響しますか?それらはすべて同じである必要はありませんか? Rでこれらの質問に答えることは可能ですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.