タグ付けされた質問 「variance」

確率変数の平均からの予想される二乗偏差。または、それらの平均についてのデータの平均二乗偏差。


2
ブートストラップ標本の標本平均の分散
ましょは別個の観測値です(関係なし)。ましょX * 1、。。。、X * n個のブートストラップ標本(経験的CDFからのサンプル)を示すとせˉ X * N = 1X1,...,XnX1,...,XnX_{1},...,X_{n}X∗1,...,X∗nX1∗,...,Xn∗X_{1}^{*},...,X_{n}^{*}。検索E( ˉ X * N)とVR( ˉ X * Nを)。X¯∗n=1n∑ni=1X∗iX¯n∗=1n∑i=1nXi∗\bar{X}_{n}^{*}=\frac{1}{n}\sum_{i=1}^{n}X_{i}^{*}E(X¯∗n)E(X¯n∗)E(\bar{X}_{n}^{*})Var(X¯∗n)Var(X¯n∗)\mathrm{Var}(\bar{X}_{n}^{*}) これまでのところ、はX 1、です。。。、X nそれぞれ確率1X∗iXi∗X_{i}^{*}X1,...,XnX1,...,XnX_{1},...,X_{n}したがって E(X ∗ i)=11n1n\frac{1}{n}および E(X ∗ 2 i)=1E(X∗i)=1nE(X1)+...+1nE(Xn)=nμn=μE(Xi∗)=1nE(X1)+...+1nE(Xn)=nμn=μ E(X_{i}^{*})=\frac{1}{n}E(X_{1})+...+\frac{1}{n}E(X_{n})=\frac{n\mu}{n}=\mu 与える VをR(X * I)= E (X * 2 I)- (E (X * I))2 = μ 2 + σ 2 - μ …

2
ポアソン分布の最尤の推定量の分散を見つける
場合パラメータでポアソン分布IIDされたβ Iは、最尤推定値であることが働いたβ(K 1、... 、K N)= 1K1,…,KnK1,…,KnK_1, \dots, K_nββ\betaデータのためのK1、...、Knは。したがって、対応する推定量T=1を定義できます。 β^(k1,…,kn)=1n∑i=1nkiβ^(k1,…,kn)=1n∑i=1nki\hat\beta (k_1, \dots, k_n) = \frac{1}{n} \sum_{i=1}^n k_ik1,…,knk1,…,knk_1, \dots, k_n 私の質問は、この推定量の分散をどのようにして計算するのですか?T=1n∑i=1nKi.T=1n∑i=1nKi.T = \frac{1}{n} \sum_{i=1}^n K_i . 具体的には、各としてパラメータを持つポアソン分布以下β分布することを、ポアソンの特性から、私は知っているが、Σ N iは= 1 K iはパラメータを持つポアソン分布続くN βが、しかしの分布何T?KiKiK_iββ\beta∑ni=1Ki∑i=1nKi\sum_{i=1}^n K_inβnβn \betaTTT

2
不等分散の下でのマンホイットニー帰無仮説
マンホイットニーのU検定の帰無仮説に興味があります。私はしばしば、帰無仮説が2つの母集団の分布が等しいという仮説であると述べたのを見ます。しかし、私は考えています。平均が同じで分散が非常に異なる2つの正常な母集団がある場合、マンホイットニー検定はおそらくこの違いを検出しません。 また、マンホイットニー検定の帰無仮説がまたは2番目の母集団からの観測()を超える1つの母集団からの観測()の確率()(タイの除外)は0.5です。これはもう少し理にかなっているようですが、私が述べた最初の帰無仮説と同等ではないようです。Pr(X>Y)=0.5Pr(X>Y)=0.5\Pr(X>Y)=0.5XXXYYY 私はこれを解くのに少し助けが欲しいと思っています。ありがとう!

4
回帰用のボックスコックス変換
1つの予測子(たとえば(x、y)など)を使用して、いくつかのデータに線形モデルを適合させようとしています。データは、xの値が小さい場合、y値は直線にぴったりとフィットしますが、x値が増加すると、y値はより変動しやすくなります。そのようなデータの例を次に示します(Rコード) y = c(3.2,3.4,3.5,3.8,4.2,5.5,4.5,6.8,7.4,5.9) x = seq(1,10,1) 以下に示すように、単純に線形近似を行うよりも、データをより適切に近似できる電力変換(おそらくボックスコックス)が存在するかどうか知りたいです。 fit = lm(y ~ x)

2
混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックブートストラップ
以下の移植片は、この記事から引用したものです。私はブートストラップの初心者であり、R bootパッケージを使用した線形混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックのブートストラップブートストラップを実装しようとしています。 Rコード これが私のRコードです: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) Out ご質問 …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

2
範囲データを連続として扱うときのベストプラクティス
豊富さがサイズに関連しているかどうかを調べています。サイズは(もちろん)連続していますが、存在量は次のようなスケールで記録されます。 A = 0-10 B = 11-25 C = 26-50 D = 51-100 E = 101-250 F = 251-500 G = 501-1000 H = 1001-2500 I = 2501-5000 J = 5001-10,000 etc... AからQ ... 17レベル。考えられるアプローチの1つは、各文字に番号を割り当てることであると考えていました:最小、最大、または中央値(つまり、A = 5、B = 18、C = 38、D = 75.5 ...)。 潜在的な落とし穴は何ですか-したがって、このデータをカテゴリカルとして扱う方が良いでしょうか? 私はいくつかの考えを提供するこの質問を読みました-しかし、このデータセットの重要な点の1つは、カテゴリーが均一ではないことです-したがって、カテゴリーとして扱うことは、AとBの違いは、 BとC ...(対数を使用して修正できます-Anonymouseに感謝) 最終的に、他の環境要因を考慮した上で、サイズを存在量の予測因子として使用できるかどうかを確認したいと思います。予測も範囲になります。サイズXと係数A、B、Cが与えられた場合、存在量Yは最小値と最大値の間になると予測します(1つ以上のスケールポイントにまたがる可能性があると思います:最小Dより大きく、最小Max F …

3
完全分散の法則の証明の何が問題になっていますか?
総分散の法則によれば、 Var(X)=E(Var(X∣Y))+Var(E(X∣Y))Var⁡(X)=E⁡(Var⁡(X∣Y))+Var⁡(E⁡(X∣Y))\operatorname{Var}(X)=\operatorname{E}(\operatorname{Var}(X\mid Y)) + \operatorname{Var}(\operatorname{E}(X\mid Y)) それを証明しようとすると、私は書きます Var(X)=E(X−EX)2=E{E[(X−EX)2∣Y]}=E(Var(X∣Y))Var⁡(X)=E⁡(X−E⁡X)2=E⁡{E⁡[(X−E⁡X)2∣Y]}=E⁡(Var⁡(X∣Y)) \begin{equation} \begin{aligned} \operatorname{Var}(X) &= \operatorname{E}(X - \operatorname{E}X)^2 \\ &= \operatorname{E}\left\{\operatorname{E}\left[(X - \operatorname{E}X)^2\mid Y\right]\right\} \\ &= \operatorname{E}(\operatorname{Var}(X\mid Y)) \end{aligned} \end{equation} どうしたの?

2
平均の独立性と離散一様分布の分散
私の投稿の下のコメントで、Glen_bと私は、離散分布が必然的に平均と分散に依存している方法について議論していました。 正規分布では理にかなっています。私はあなたを伝える場合バツ¯x¯\bar{x}、あなたはどのような手掛かりいないである、と私はあなたの言うならば、あなたはどのような手掛かりいないです。(母集団パラメーターではなく、サンプル統計を扱うように編集されています。)s2s2s^2s2s2s^2バツ¯x¯\bar{x} しかし、離散的な均一分布の場合、同じロジックが適用されませんか?エンドポイントの中心を推定するとスケールがわかりません。スケールを推定すると中心がわかりません。 私の考えで何が問題になっていますか? 編集 jbowmanのシミュレーションを行いました。次に、確率分布変換(私はそう思う)を実行して、周辺分布(コピュラの分離)の影響を受けずに関係を調べます。 Data.mean <- Data.var <- rep(NA,20000) for (i in 1:20000){ Data <- sample(seq(1,10,1),100,replace=T) Data.mean[i] <- mean(Data) Data.var[i] <- var(Data) } par(mfrow=c(2,1)) plot(Data.mean,Data.var,main="Observations") plot(ecdf(Data.mean)(Data.mean),ecdf(Data.var)(Data.var),main="'Copula'") RStudioに表示される小さな画像では、2番目のプロットは単位正方形全体が均一にカバーされているため、独立しています。ズームインすると、はっきりとした垂直の帯が現れます。これは離散性に関係していると私は考えるべきではないと思います。次に、連続一様分布で試してみました。(0 、10 )(0,10)(0,10) Data.mean <- Data.var <- rep(NA,20000) for (i in 1:20000){ Data <- runif(100,0,10) Data.mean[i] <- mean(Data) Data.var[i] <- var(Data) } …

2
ガウス確率変数の最大値の分散
ランダム変数からサンプリングされた、定義します X1,X2,⋯,XnX1,X2,⋯,XnX_1,X_2, \cdots, X_n∼N(0,σ2)∼N(0,σ2)\sim \mathcal{N}(0, \sigma^2)Z=maxi∈{1,2,⋯,n}XiZ=maxi∈{1,2,⋯,n}XiZ = \max_{i \in \{1,2,\cdots, n \}} X_i 我々は、そのE[Z]≤σ2logn−−−−−√E[Z]≤σ2log⁡n\mathbb{E}[Z] \le \sigma \sqrt{2 \log n}。\ text {Var}(Z)に上限/下限があるかどうか疑問に思っていましたかVar(Z)Var(Z)\text{Var}(Z)?

4
相関する確率変数の線形結合の分散
私は証拠を理解 しかし、私は、任意の線形結合に一般化を証明するためにどのように理解していません。Va r (a X+ b Y)= a2Va r (X)+ b2Va r (Y)+ 2 a b Co v (X、Y)、Var(aバツ+bY)=a2Var(バツ)+b2Var(Y)+2abCov(バツ、Y)、Var(aX+bY) = a^2Var(X) +b^2Var(Y) + 2abCov(X,Y), ましょうするためのスカラーこと我々はベクトル持っているので、および相関確率変数のベクトルです。次に どのように証明しますか?総和表記とベクトル表記には証明があると思いますか?a私a私a_iI ∈ 1 、... 、n個私∈1、…、んi\in {1,\dots ,n}a––a_\underline aバツ––= X私、… 、Xんバツ_=バツ私、…、バツん\underline X = X_i,\dots ,X_nVar(a1X1+…anXn)=∑i=1na2iσ2i+2∑i=1n∑j>inaiaj Cov(Xi,Xj)Var(a1バツ1+…aんバツん)=Σ私=1んa私2σ私2+2Σ私=1んΣj>私んa私aj Cov(バツ私、バツj) Var(a_1X_1 + \dots a_nX_n) = \sum_{i=1}^n a_i^2 \sigma_i^2 + …


1
バギング手法に関連する混乱
少し混乱しています。私はこの論文を読んでいて、バギング手法は分散を大幅に減らし、バイアスをわずかに増やすだけだと説明しました。どうして分散が小さくなるのかわかりませんでした。私は分散とバイアスが何であるかを知っています。バイアスとは、モデルがデータを学習できないことです。分散は、過適合に似ています。バギングによって分散がどのように減少するかはわかりません。

1
フィッティング値を大きくしてスプレッドが減少したときに分散の不均一性をどうするか
Rコードが次のような線形混合モデルを作成しようとしています。 lme(Average.payoff〜Game + Type + Others.Type + Game:Type + Game:Others.Type + Type:Others.Type、random =〜1 | Subjects、method = "REML"、data = Subjectsm1)-> lme1 応答項Average.payoffは連続ですが、すべての説明変数はすべてバイナリです。 検証に来ると、フィット値が大きくなると残差の広がりが減少することがはっきりとわかります。近似値が大きくなると残差が増加する形で不均一性に関する情報がたくさんあるようですが、私は自分のケースに似たケースについては何も読んでいません。 各説明効果に対して残差をプロットしましたが、変数GameおよびTypeの近似値が大きいほどスプレッドが減少しますが、変数Others.Typeの場合は増加することがわかります。 これの原因は何ですか?それについて私は何をすべきですか? 2次項の追加または加法モデリングの使用を検討すべきですか?適用すべき変換はありますか? おかげで、 ジョナサン

3
2SLSの分散がOLSの分散よりも大きいのはなぜですか?
... 2SLSおよびその他のIV手順を適用する際のもう1つの潜在的な問題は、2SLS標準誤差が「大きくなる」傾向があることです。このステートメントが通常意味するのは、2SLS係数が統計的に有意でないか、2SLS標準であることです。エラーは、OLSの標準エラーよりもはるかに大きくなります。当然のことながら、2SLS標準誤差の大きさは、とりわけ、推定に使用される計測器の品質に依存します。 この引用は、Wooldridgeの「断面およびパネルデータの計量分析」からのものです。なぜこれが起こるのでしょうか?数学的な説明をお願いします。 OLSの(推定)漸近分散簡単のためhomoskedasticityを想定推定によって与えられる 、一方2SLS推定量の場合 ここで、 Avarˆ(β^OLS)=nσ2(X′X)−1Avar^(β^OLS)=nσ2(X′X)−1\widehat{Avar}(\hat{\beta}_{OLS}) = n\sigma^2(X'X)^{-1}Avarˆ(β^2SLS)=nσ2(X^′X^)−1Avar^(β^2SLS)=nσ2(X^′X^)−1\widehat{Avar}(\hat{\beta}_{2SLS}) = n\sigma^2(\hat{X}'\hat{X})^{-1}X^=PzX=Z(Z′Z)−1Z′X.X^=PzX=Z(Z′Z)−1Z′X.\hat{X} = P_zX = Z(Z'Z)^{-1}Z'X. XXXは、内生変数を含むリグレッサの行列であり、は、インストルメンタル変数の行列です。ZZZ したがって、2SLSの分散を書き換えると、 Avarˆ(β^2SLS)=nσ2(X′Z(Z′Z)−1Z′X)−1.Avar^(β^2SLS)=nσ2(X′Z(Z′Z)−1Z′X)−1.\widehat{Avar}(\hat{\beta}_{2SLS}) = n\sigma^2\left(X'Z(Z'Z)^{-1}Z'X\right)^{-1}. ただし、上記の式からと結論付けることはできません。Avarˆ(β^2SLS)≥Avarˆ(β^OLS)Avar^(β^2SLS)≥Avar^(β^OLS)\widehat{Avar}(\hat{\beta}_{2SLS}) \geq \widehat{Avar}(\hat{\beta}_{OLS})

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.