タグ付けされた質問 「self-study」

クラスまたは自習用に使用される教科書、コース、またはテストからの定期的な練習。このコミュニティのポリシーは、完全な回答ではなく、そのような質問に「役立つヒントを提供する」ことです。

3
ガンマ分布からの統計の独立性
ましょは、ガンマ分布G a m m a (α 、β )からのランダムサンプルです。バツ1、。。。、XんX1,...,XnX_1,...,X_nG a m m a(α 、β)Gamma(α,β)\mathrm{Gamma}\left(\alpha,\beta\right) ましょうとS 2は、それぞれ、サンプル平均と標本分散すること。バツ¯X¯\bar{X}S2S2S^2 そして、ということを証明または反証とS 2 / ˉ X 2は独立しています。バツ¯X¯\bar{X}S2/ X¯2S2/X¯2S^2/\bar{X}^2 私の試み:以来、我々はの独立性を確認する必要がありˉXおよび(XIをS2/ X¯2= 1n − 1Σんi = 1(X私バツ¯− 1 )2S2/X¯2=1n−1∑i=1n(XiX¯−1)2S^2/\bar{X}^2 = \frac{1}{n-1} \sum_{i=1}^n \left(\frac{X_i}{\bar{X}}-1\right)^2 バツ¯X¯\bar{X}が、どのように私はそれらの間の独立性を確立する必要がありますか?(X私バツ¯)んi = 1(XiX¯)i=1n\left(\frac{X_i}{\bar{X}} \right)_{i=1}^{n}

2
表示
もし、の分布見つけるY = 2 XをX∼C(0,1)X∼C(0,1)X\sim\mathcal C(0,1)。Y=2X1−X2Y=2X1−X2Y=\frac{2X}{1-X^2} 我々はFY(y)=Pr(Y≤y)FY(y)=Pr(Y≤y)F_Y(y)=\mathrm{Pr}(Y\le y) =Pr(2X1−X2≤y)=Pr(2X1−X2≤y)\qquad\qquad\qquad=\mathrm{Pr}\left(\frac{2X}{1-X^2}\le y\right) =⎧⎩⎨⎪⎪⎪⎪⎪⎪Pr(X∈(−∞,−1−1+y2√y])+Pr(X∈ ( − 1 、− 1 + 1 + y2√y])、もしy&gt; 0P r ( X∈ ( − 1 、− 1 + 1 + y2√y]) + P r ( X∈ ( 1 、− 1 − 1 + y2√y])、もしy&lt; 0={Pr(X∈(−∞,−1−1+y2y])+Pr(X∈(−1,−1+1+y2y]),ify&gt;0Pr(X∈(−1,−1+1+y2y])+Pr(X∈(1,−1−1+y2y]),ify&lt;0\qquad\qquad=\begin{cases} \mathrm{Pr}\left(X\in\left(-\infty,\frac{-1-\sqrt{1+y^2}}{y}\right]\right)+\mathrm{Pr}\left(X\in\left(-1,\frac{-1+\sqrt{1+y^2}}{y}\right]\right),\text{if}\quad y>0\\ \mathrm{Pr}\left(X\in\left(-1,\frac{-1+\sqrt{1+y^2}}{y}\right]\right)+\mathrm{Pr}\left(X\in\left(1,\frac{-1-\sqrt{1+y^2}}{y}\right]\right),\text{if}\quad y<0 …

3
または
確率テストを行ったので、この質問には答えられませんでした。それはちょうどこのようなものを尋ねました: 「考慮すること確率変数であり、X ⩾ 0、より高いか又は等しい何を証明するために正しい不等式を使用E (X 2 )3、またはE (X 3 )2。バツXXバツXX ⩾⩾\geqslant 000E(X2)3E(X2)3E(X^2)^3E(X3)2E(X3)2E(X^3)^2 私が考えた唯一のことはジェンセンの不平等でしたが、私はそれをここでどのように適用するか本当に知りません。

2
ML推定器の不変性プロパティは、ベイジアンの観点から無意味ですか?
CasellaとBergerは、ML推定量の不変性を次のように述べています。 しかし、彼らは「可能性」を完全にアドホックで無意味な方法で定義しているように思えます。ηη\eta 私は、単純なケースwheterに確率論の基本的なルールを適用した場合、私の代わりに、次を得る: L (η | X )= P (X | θ 2 = η )= P (X | θ = - √η=τ(θ)=θ2η=τ(θ)=θ2\eta=\tau(\theta)=\theta^2 今、ベイズの定理を適用すること、およびその後、事実AとBは、我々は和ルール適用できることを相互に排他的でとてもある: P(X|A∨B)=P(xと) P (A ∨ B | X )L(η|x)=p(x|θ2=η)=p(x|θ=−η–√∨θ=η–√)=:p(x|A∨B)L(η|x)=p(x|θ2=η)=p(x|θ=−η∨θ=η)=:p(x|A∨B)L(\eta|x)=p(x|\theta^2=\eta)=p(x|\theta = -\sqrt \eta \lor \theta = \sqrt \eta)=:p(x|A \lor B)AAABBBp(x|A∨B)=p(x)p(A∨B|x)p(A∨B)=p(x|A∨B)=p(x)p(A|x)+p(B|x)p(A)+p(B)p(x|A∨B)=p(x)p(A∨B|x)p(A∨B)=p(x|A∨B)=p(x)p(A|x)+p(B|x)p(A)+p(B)p(x|A\lor B)=p(x)\frac {p(A\lor B|x)}{p(A\lor B)}=p(x|A\lor B)=p(x)\frac {p(A|x)+p(B|x)}{p(A)+p(B)} p(x)p(A)p(x|A)p(x)+p(B)p(x|B)p(x)p(A)+p(B)=p(A)p(x|A)+p(B)p(x|B)p(A)+p(B)p(x)p(A)p(x|A)p(x)+p(B)p(x|B)p(x)p(A)+p(B)=p(A)p(x|A)+p(B)p(x|B)p(A)+p(B)p(x)\frac {p(A)\frac …

1
相互に排他的でないカテゴリを分類できる深層学習モデル
例:仕事の説明に「英国のJavaシニアエンジニア」という文があります。 私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい:English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか? 「編集」:従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます 例:3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか?それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

4
コックスハザードモデルの生存曲線を解釈するにはどうすればよいですか?
コックス比例ハザードモデルから生存曲線をどのように解釈しますか? このおもちゃの例ではage、kidneyデータの変数にcox比例ハザードモデルがあり、生存曲線を生成するとします。 library(survival) fit &lt;- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() たとえば、時間、どのステートメントが正しいですか?または両方が間違っていますか?200200200 ステートメント1:被験者は20%残ります(たとえば、人がいる場合、200日目までに、およそ200人が残っているはずです)。 100010001000200200200200200200 ステートメント2:特定の人に対して、彼/彼女は200日目に生存する可能性がます。20%20%20\%200200200 βTxβTx\beta^Tx

1
正規分布エラーと中心極限定理
ウォルドリッジの導入計量経済学では、引用があります: エラーの正規分布を正当化する引数は通常、次のようなものですはに影響を与える多くの異なる観測されていない要因の合計であるため、中心極限定理を呼び出して、が近似正規分布であると結論付けることができます。uuuyyyuuu この引用は、線形モデルの仮定の1つに関連しています。 u∼N(μ,σ2)u∼N(μ,σ2)u \sim N(μ, σ^2) ここで、uuuは母集団モデルの誤差項です。 さて、私の知る限りでは、中心極限定理は、 Zi=(Yi¯¯¯¯¯−μ)/(σ/√n)Zi=(Yi¯−μ)/(σ/√n)Z_i=(\overline{Y_i}-μ)/(σ/√n) (ここで、Yi¯¯¯¯¯Yi¯\overline{Y_i} は、平均μμμと分散σ^ 2を持つ任意の母集団から抽出されたランダムサンプルの平均ですσ2σ2σ^2) n \ rightarrow \ inftyとして標準の標準変数に近づきn→∞n→∞n \rightarrow \inftyます。 質問: Z_iの漸近正規性ZiZiZ_iがu \ sim N(μ、σ^ 2)をどのように意味するかを理解するu∼N(μ,σ2)u∼N(μ,σ2)u \sim N(μ, σ^2)

1
スキップグラムword2vecのグラデーション
スタンフォード大学NLPディープラーニングクラスの課題の問題http://cs224d.stanford.edu/assignment1/assignment1_soln 私は3aの答えを理解しようとしています。ここで、彼らは中心語のベクトルの派生物を探しています。 あなたが予測単語ベクトル与えられていると仮定し、中心ワードに対応するC skipgramのために、と単語予測がword2vecモデルで見つかったソフトマックス関数で作られています。vcvcv_{c} y^o=p(o|c)=exp(uTovc)∑Ww=1exp(uTwvc)y^o=p(o|c)=exp(uoTvc)∑w=1Wexp(uwTvc)\hat{y}^{o} = p(o | c) = \frac {exp(u_{o}^{T} v_{c})}{\sum_{w=1}^{W}exp(u_{w}^{T} v_{c})} ここで、wはw番目の単語を表し、(w = 1、。。、W)は語彙内のすべての単語の「出力」単語ベクトルです。クロスエントロピーコストがこの予測に適用され、単語oが期待される単語であると仮定します。uwuwu_w ここで、すべての出力ベクトルの行列であり、およびlet yは単語のソフトマックス予測の列ベクトルであり、そしてyはワンホットラベルでいますも列ベクトルです。U=[u1,u2,⋅⋅⋅,uW]U=[u1,u2,···,uW]U = [u_1,u_2, · · · ,u_W ]y^y^\hat{y} クロスエントロピーでありCE(y,y^)=−∑iyilog(y^i)CE(y,y^)=−∑iyilog⁡(y^i)CE(y, \hat{y}) = − \sum_iy_i\log(\hat{y}_i) だから、中心ベクトルのための勾配のための答えがある∂J∂vc=UT(y^−y).∂J∂vc=UT(y^−y).\frac{∂J}{∂v_c}= U^T(\hat{y} − y). UT(y^−y).UT(y^−y).U^T(\hat{y} − y).

2
ポアソンパラメーターの不偏推定量
1日あたりの事故の数は、パラメーター持つポアソン確率変数であり、ランダムに選択された10日に、事故の数が1,0,1,1,2,0,2,0,0,1として観測されました。公平な推定者になりますか?λλ\lambdaeλeλe^{\lambda} 私はこのようにしてみました:であることがわかりが、です。それでは、必要な不偏推定量は何でしょうか?E(x¯)=λ=0.8E(x¯)=λ=0.8E(\bar{x})=\lambda=0.8E(ex¯)≠ eλE(ex¯)≠ eλE(e^{\bar{x}})\neq\ e^{\lambda}

2
ベイズ推定量の比較
二次損失以前に与えられたで、です。ましょう 尤度。ベイズ推定器を見つけます。L(θ,δ)=(θ−δ)2L(θ,δ)=(θ−δ)2L(\theta,\delta)=(\theta-\delta)^2π(θ)π(θ)\pi(\theta)π(θ)∼U(0,1/2)π(θ)∼U(0,1/2)\pi(\theta)\sim U(0,1/2)f(x|θ)=θxθ−1I[0,1](x),θ&gt;0f(x|θ)=θxθ−1I[0,1](x),θ&gt;0f(x|\theta)=\theta x^{\theta-1}\mathbb{I}_{[0,1]}(x), \theta>0δπδπ\delta^\pi 加重二次損失 ここで、 前に ます。ましょう可能性です。ベイズ推定器を見つけます。Lw(θ,δ)=w(θ)(θ−δ)2Lw(θ,δ)=w(θ)(θ−δ)2L_w(\theta,\delta)=w(\theta)(\theta-\delta)^2w(θ)=I(−∞,1/2)w(θ)=I(−∞,1/2)w(\theta)=\mathbb{I}_{(-\infty,1/2)}π1(θ)=I[0,1](θ)π1(θ)=I[0,1](θ)\pi_1(\theta)=\mathbb{I}_{[0,1]}(\theta)f(x|θ)=θxθ−1I[0,1](x),θ&gt;0f(x|θ)=θxθ−1I[0,1](x),θ&gt;0f(x|\theta)=\theta x^{\theta-1}\mathbb{I}_{[0,1]}(x), \theta>0δπ1δ1π\delta^\pi_1 と比較するδπδπ\delta^\piδπ1δ1π\delta^\pi_1 最初に、に気づき、それが可能性であると想定しました。そうでない場合、事後は得られず、 したがって、2次損失に関するベイズ推定量は f(x|θ)∼Beta(θ,1)f(x|θ)∼Beta(θ,1)f(x|\theta)\sim Beta(\theta,1)π(θ|x)∝f(x|θ)π(θ)=θxθ−1I[0,1]∗2I(0,1/2)(θ)∼Beta(θ,1)π(θ|x)∝f(x|θ)π(θ)=θxθ−1I[0,1]∗2I(0,1/2)(θ)∼Beta(θ,1)\pi(\theta|x)\propto f(x|\theta)\pi(\theta)=\theta x^{\theta-1}\mathbb{I}_{[0,1]}*2\mathbb{I}_{(0,1/2)}(\theta)\sim Beta(\theta,1)E[π(θ|x)]=θθ+1E[π(θ|x)]=θθ+1\mathbb{E}[\pi(\theta|x)]=\frac{\theta}{\theta+1} 私は本「ベイジアンチョイス」を探しています。加重2次損失に関連するベイズ推定量に関する定理があり、それは δπ(x)=Eπ[w(θ)θ|x]Eπ[w(θ)|x]δπ(x)=Eπ[w(θ)θ|x]Eπ[w(θ)|x]\delta^\pi(x)=\frac{\mathbb{E}^\pi[w(\theta)\theta|x]}{\mathbb{E}^\pi[w(\theta)|x]} 誰かが私にそれを計算する方法を説明できますか? 私が試したのは: δπ(x)=∫θw(θ)f(x|θ)π(θ)dθ∫w(θ)f(x|θ)π(θ)dθ∫f(x|θ)π(θ)dθ∫w(θ)f(xθ)π(θ)dθδπ(x)=∫θw(θ)f(x|θ)π(θ)dθ∫w(θ)f(x|θ)π(θ)dθ∫f(x|θ)π(θ)dθ∫w(θ)f(xθ)π(θ)dθ\delta^\pi(x)=\frac{\frac{\int \theta w(\theta)f(x|\theta)\pi(\theta)d\theta}{\int w(\theta)f(x|\theta)\pi(\theta)d\theta}}{\frac{\int f(x|\theta)\pi(\theta)d\theta}{\int w(\theta)f(x\theta)\pi(\theta)d\theta}} サポートがであることは知っていますが、分子に統合しようとしたとき[0,12][0,12][0,\frac{1}{2}] ∫θw(θ)f(x|θ)π(θ)dθ=∫120θθxθ−1dθ=1x∫120θ2xθdθ∫θw(θ)f(x|θ)π(θ)dθ=∫012θθxθ−1dθ=1x∫012θ2xθdθ\int \theta w(\theta)f(x|\theta)\pi(\theta)d\theta=\int_0^\frac{1}{2}\theta\theta x^{\theta-1}d\theta=\frac{1}{x}\int_0^\frac{1}{2}\theta^2 x^\theta d\theta 良い結果は得られません。

2
紙からの期待の最大化に役立つ:事前配布を含める方法?
質問は、「放射輸送-拡散結合モデルを使用した拡散光トモグラフィーにおける画像再構成」というタイトルの論文に基づいています。 リンクをダウンロード 著者は、未知のベクトルスパース正則化を使用してEMアルゴリズムを適用し、画像のピクセルを推定します。モデルは、l1l1l_1μμ\mu y=Aμ+e(1)(1)y=Aμ+ey=A\mu + e \tag{1} 推定はEq(8)で次のように与えられます μ^=argmaxlnp(y|μ)+γlnp(μ)(2)(2)μ^=arg⁡maxln⁡p(y|μ)+γln⁡p(μ)\hat{\mu} = \arg max {\ln p(y|\mu) + \gamma \ln p(\mu)} \tag{2} 私の場合、私はを長さフィルターと見なし、はフィルターを表すベクトルです。そう、μμ\muLLLμμ\mathbf{\mu}L×1L×1L \times 1 モデルはように書き直すことができますy(n)=μTa(n)+v(n)(3)(3)y(n)=μTa(n)+v(n)y(n) = \mathbf{\mu^T}a(n) + v(n) \tag{3} 質問:問題の定式化:(n by 1)は観測されていない入力であり、は未知の分散付加ノイズを伴うゼロ平均です。MLEソリューションは期待値最大化(EM)に基づいています。μ(n)μ(n){\mu(n)}{e(n)}{e(n)}\{e(n)\}σ2eσe2\sigma^2_e 論文ではEq(19)は関数です-完全な対数尤度ですが、私の場合、完全な対数尤度式に分布を含める方法を理解できません。 AAAA,μA,μA, \mu 以前の分布を含め、 EMを使用した完全な対数尤度はどうなりますか?yyy

2
注文統計の変換
確率変数およびは独立しており、分散されていると仮定します。ことを示し有する\ text {Exp}(1)分布。X1,...,XnX1,...,XnX_1, ... , X_nY1,...,YnY1,...,YnY_1, ..., Y_nU(0,a)U(0,a)U(0,a)Zn=nlogmax(Y(n),X(n))min(Y(n),X(n))Zn=nlog⁡max(Y(n),X(n))min(Y(n),X(n))Z_n= n\log\frac{\max(Y_{(n)},X_{(n)})}{\min(Y_{(n)},X_{(n)})}Exp(1)Exp(1)\text{Exp}(1) 私は設定して、この問題を始めました{X1,...,Xn,Y1,...Yn}={Z1,...,Zn}{X1,...,Xn,Y1,...Yn}={Z1,...,Zn}\{X_1,...,X_n,Y_1,...Y_n\} = \{Z_1,...,Z_n\}次にmax(Yn,Xn)=Z(2n)max(Yn,Xn)=Z(2n)\max(Y_n,X_n)= Z_{(2n)}は(\ frac {z} {a})^ {2n}として配布され(za)2n(za)2n(\frac{z}{a})^{2n}、min(Yn,Xn)=Z(1)min(Yn,Xn)=Z(1)\min(Y_n,X_n)= Z_{(1)}は1−(1−za)2n1−(1−za)2n1 - (1 - \frac{z}{a})^{2n} 密度は、f_ {Z_ {1}}(z)=(2n)(1- \ frac {z} {a})^ {2n-1} \ fracとして簡単に見つけることができます{1} {a}fZ1(z)=(2n)(1−za)2n−11afZ1(z)=(2n)(1−za)2n−11af_{Z_{1}}(z) = (2n)(1-\frac{z}{a})^{2n-1}\frac{1}{a}およびfZ(2n)(z)=(2n)(za)2n−11afZ(2n)(z)=(2n)(za)2n−11af_{Z_{(2n)}}(z) = (2n)(\frac{z}{a})^{2n-1} \frac{1}{a} これは、これらが計算されたため、次にどこに行くべきかを知るのに苦労しているところです。変革で何かをしなければならないと思っていますが、よくわかりません...

1
線形変換への相関の不変性:
これは実際にはグジャラート語の基本計量経済学第4版(Q3.11)の問題の1つであり、相関係数は原点とスケールの変化に対して不変である、つまりここ、、、、は任意の定数です。corr(aX+b,cY+d)=corr(X,Y)corr(aX+b,cY+d)=corr(X,Y)\text{corr}(aX+b, cY+d) = \text{corr}(X,Y)aaabbbcccddd しかし、私の主な質問は次のとおりですとをペアの観測値とし、とが正の相関があると仮定します。つまり、です。は直感に基づいて負になることを知ってい。ただし場合、となるため、意味がありません。XXXYYYXXXYYYcorr(X,Y)&gt;0corr(X,Y)&gt;0\text{corr}(X,Y)>0corr(−X,Y)corr(−X,Y)\text{corr}(-X,Y)a=−1,b=0,c=1,d=0a=−1,b=0,c=1,d=0a=-1, b=0, c=1, d=0corr(−X,Y)=corr(X,Y)&gt;0corr(−X,Y)=corr(X,Y)&gt;0\text{corr}(-X,Y) = \text{corr}(X,Y) >0 誰かがそのギャップを指摘していただければ幸いです。ありがとう。

3
あることを証明する方法
私は不平等を確立しようとしています |Ti|=∣∣Xi−X¯∣∣S≤n−1n−−√|Ti|=|Xi−X¯|S≤n−1n\left| T_i \right|=\frac{\left|X_i -\bar{X} \right|}{S} \leq\frac{n-1}{\sqrt{n}} ここで、はサンプルの平均値、はサンプルの標準偏差、つまり 。X¯X¯\bar{X}SSSS=∑ni=1(Xi−X¯)2n−1−−−−−−−−−√S=∑i=1n(Xi−X¯)2n−1S=\sqrt{\frac{\sum_{i=1}^n \left( X_i -\bar{X} \right)^2}{n-1}} であることがわかりやすいので、が、これは私が探していたものにあまり近くなく、有効な範囲でもありません。コーシーシュワルツと三角形の不等式を試してみましたが、どこにも行きませんでした。私がどこかで見逃している微妙なステップがあるに違いありません。どうぞよろしくお願いいたします。∑ni=1T2i=n−1∑i=1nTi2=n−1\sum_{i=1}^n T_i^2 = n-1 |Ti|&lt;n−1−−−−−√|Ti|&lt;n−1\left| T_i \right| < \sqrt{n-1}

1
勾配降下法のような勾配ブースティングはどうですか?
私は勾配ブースティングに関する有用なWikipediaエントリ(https://en.wikipedia.org/wiki/Gradient_boosting)を読んでおり、最急降下ステップ(疑似勾配とも呼ばれる)によって残差を近似できる方法/理由を理解しようとしています)。誰かが私に最も急な降下が残差にリンクされている/類似している方法の直感を教えてもらえますか?どうぞよろしくお願いいたします。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.