タグ付けされた質問 「variance」

確率変数の平均からの予想される二乗偏差。または、それらの平均についてのデータの平均二乗偏差。

3
単純な線形回帰における回帰係数の分散を導き出す
単純な線形回帰では、。ここで、です。推定量を導き出しました: ここでおよびはおよびサンプル平均です。y=β0+β1x+uy=β0+β1x+uy = \beta_0 + \beta_1 x + uu∼iidN(0,σ2)u∼iidN(0,σ2)u \sim iid\;\mathcal N(0,\sigma^2)β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 ,β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 , \hat{\beta_1} = \frac{\sum_i (x_i - \bar{x})(y_i - \bar{y})}{\sum_i (x_i - \bar{x})^2}\ , x¯x¯\bar{x}y¯y¯\bar{y}xxxyyy ここで、\ hat \ beta_1の分散を見つけたいと思いますβ^1β^1\hat\beta_1。次のようなものを導き出しました: Var(β1^)=σ2(1−1n)∑i(xi−x¯)2 .Var(β1^)=σ2(1−1n)∑i(xi−x¯)2 . \text{Var}(\hat{\beta_1}) = \frac{\sigma^2(1 - \frac{1}{n})}{\sum_i (x_i - \bar{x})^2}\ . 派生は次のとおりです。 Var(β1^)=Var(∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2)=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(β0+β1xi+ui−1n∑j(β0+β1xj+uj)))=1(∑i(xi−x¯)2)2Var(β1∑i(xi−x¯)2+∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2×E⎡⎣⎢⎢⎢⎢⎢⎢⎛⎝⎜⎜⎜⎜⎜∑i(xi−x¯)(ui−∑jujn)−E[∑i(xi−x¯)(ui−∑jujn)]=0⎞⎠⎟⎟⎟⎟⎟2⎤⎦⎥⎥⎥⎥⎥⎥=1(∑i(xi−x¯)2)2E⎡⎣(∑i(xi−x¯)(ui−∑jujn))2⎤⎦=1(∑i(xi−x¯)2)2E[∑i(xi−x¯)2(ui−∑jujn)2] , since ui 's are …

3
分割交差検証推定値のとしての分散:「安定性」の役割は何ですか?
TL、DR:それは、反対しばしば反復するアドバイス、リーブワンアウトクロスバリデーション(LOO-CV)が表示さ-であり、でCVを倍(折り目の数)に等しい(数トレーニング観測値)-モデル/アルゴリズム、データセット、またはその両方の特定の安定性条件を仮定して、最大変数ではなく、最小変数である一般化誤差の推定値を生成します(どちらがわからない私はこの安定条件を本当に理解していないので正しいです)。K N KKKKKKKNNNKKK 誰かがこの安定条件が何であるかを正確に説明できますか? 線形回帰はそのような「安定した」アルゴリズムの1つであり、その文脈では、LOO-CVが一般化誤差の推定値のバイアスと分散に関する限り、厳密にCVの最良の選択であることを意味しますか? 従来の知恵は、選択することであるにおける倍CVはバイアス分散トレードオフを、以下のような低い値高い値つつ、より悲観的なバイアスを有する汎化誤差の推定につながるが、より低い分散、(2に近づきます)(接近)以下バイアスされたが、より大きな分散を有するされる推定値をもたらします。とともに増加するこの分散現象の従来の説明は、おそらく「統計的学習の要素(セクション7.10.1)」で最も顕著に示されています。K K K N KKKKKKKKKKKKKNNNKKK K = Nの場合、クロス検証推定器は真の(予想される)予測誤差に対してほぼバイアスをかけられませんが、N個の「トレーニングセット」は互いに非常に類似しているため、分散が大きくなります。 意味は、検証エラーはより高度に相関しているため、それらの合計はより可変的です。推論のこのラインは(例えば、このサイトで多くの回答で繰り返されているここで、ここでは、ここでは、ここでは、ここでは、ここでは、とここではその代わり、)などなど、様々なブログにし、しかし、詳細な分析が事実上与えれることはありません分析がどのように見えるかについての直感または簡単なスケッチのみ。NNN ただし、通常、私が実際に理解していない特定の「安定性」条件を引用して、矛盾するステートメントを見つけることができます。たとえば、この矛盾する答えは、「低不安定性のモデル/モデリング手順では、LOOの変動性が最小であることが多い」という2015年の論文のいくつかの段落を引用しています(強調を追加)。このペーパー(セクション5.2)は、モデル/アルゴリズムが「安定」である限り、LOOが最小変数選択を表すことに同意するようです。この問題に対する別のスタンスをとると、この論文(結果2)もあります。これは、「倍交差検証の分散[...]は依存しないk kKKKkkkkkk、」再び特定の「安定性」条件を引用しています。 LOOが最も可変的な折り畳みCVである理由についての説明は十分に直感的ですが、反直感があります。平均二乗誤差(MSE)の最終的なCV推定値は、各フォールドのMSE推定値の平均です。したがって、がまで増加すると、CV推定値は増加するランダム変数の平均になります。そして、平均の分散は変数の数が平均化されるにつれて減少することを知っています。そのため、LOOが最も可変のフォールドCVになるためには、MSE推定値間の相関の増加による分散の増加が、平均化されるフォールドの数が多いことによる分散の減少を上回ることを確認する必要があります。K N KKKKKKKNNNKKK。そして、これが真実であることはまったく明らかではありません。 これらすべてについて完全に混乱して考えるようになったので、線形回帰の場合について少しシミュレーションを実行することにしました。 = 50および3つの無相関予測子を使用して10,000個のデータセットをシミュレートし、そのたびに = 2、5、10 、または50 =フォールドCVを使用して一般化誤差を推定しました。Rコードはこちらです。10,000個のすべてのデータセット(MSE単位)でのCV推定の結果の平均と分散は次のとおりです。K K NNNNKKKKKKNNN k = 2 k = 5 k = 10 k = n = 50 mean 1.187 1.108 1.094 1.087 variance 0.094 0.058 …

6
共分散推定量の分母がn-1ではなくn-2にならないのはなぜですか?
(不偏)分散推定量の分母はであり、観測値があり、推定されるパラメーターは1つだけです。n−1n−1n-1nnn V(X)=∑ni=1(Xi−X¯¯¯¯)2n−1V(X)=∑i=1n(Xi−X¯)2n−1 \mathbb{V}\left(X\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}}{n-1} 同様に、2つのパラメーターを推定するときに共分散の分母をにしないのはなぜでしょうか?n−2n−2n-2 Cov(X,Y)=∑ni=1(Xi−X¯¯¯¯)(Yi−Y¯¯¯¯)n−1Cov(X,Y)=∑i=1n(Xi−X¯)(Yi−Y¯)n−1 \mathbb{Cov}\left(X, Y\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)\left(Y_{i}-\overline{Y}\right)}{n-1}

4
分布はどのようにして無限の平均と分散を持つことができますか?
以下の例を挙げることができれば幸いです。 無限平均と無限分散のある分布。 無限の平均と有限の分散を持つ分布。 有限平均と無限分散の分布。 有限平均と有限分散を持つ分布。 Wilmottフォーラム/ウェブサイトでスレッドを読んで、グーグルで、読んでいる記事で使用されているこれらのなじみのない用語(無限平均、無限分散)を見て、十分に明確な説明を見つけられなかったからです。また、自分の教科書には説明がありません。

5
サンプルサイズを大きくすると(サンプリング)分散が小さくなるのはなぜですか?
大局: サンプルサイズを増やすと実験の力がどのように増加するかを理解しようとしています。私の講師のスライドは、2つの正規分布の図で説明します。1つは帰無仮説、もう1つは対立仮説とその間の決定しきい値cです。彼らは、サンプルサイズを大きくすると分散が低下し、それにより尖度が高くなり、曲線下の共有領域が減少し、タイプIIエラーの確率が低下すると主張しています。 小さい画像: サンプルサイズを大きくすると分散がどのように低下​​するかわかりません。 サンプルの分散を計算し、正規分布のパラメーターとして使用することを想定しています。 私は試した: グーグル、しかし、ほとんどの受け入れられた答えは0の賛成票を持っているか、単なる例 思考:大きい数の法則により、すべての値は最終的に、想定される正規分布に従ってその推定値を中心に安定するはずです。したがって、分散は、想定した正規分布の分散に収束するはずです。しかし、その正規分布の分散とは何ですか?それは最小値ですか?つまり、サンプル分散がその値まで減少することを確認できますか?

3
ロジスティック回帰の95%信頼区間を手動で計算することと、Rでconfint()関数を使用することに違いがあるのはなぜですか?
皆さん、私は説明できない奇妙なことに気づきました、できますか?要約すると、ロジスティック回帰モデルで信頼区間を計算する手動のアプローチとR関数confint()は異なる結果をもたらします。 Hosmer&LemeshowのApplied Logistic Regression(第2版)を行ってきました。第3章には、オッズ比と95%の信頼区間を計算する例があります。Rを使用すると、モデルを簡単に再現できます。 Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

4
(なぜ)オーバーフィットモデルは大きな係数を持つ傾向がありますか?
変数の係数が大きいほど、モデルはその次元で「スイング」する能力が大きくなり、ノイズに適合する機会が増えると思います。モデルの分散と大きな係数との関係については合理的な意味を持っていると思いますが、オーバーフィットモデルでそれらが発生する理由についてはあまり意味がありません。それらが過剰適合の症状であり、係数の収縮はモデルの分散を減らすための技術であると言うのは間違っていますか?係数の縮小による正則化は、大きな係数は過剰適合モデルの結果であるという原則に基づいているようですが、おそらくこの手法の背後にある動機を誤解しているのでしょう。 大きな係数は一般に過剰適合の症状であるという私の直感は、次の例から得られます。 すべてがx軸上にある点をフィットさせたいとしましょう。これらの点がある多項式を簡単に構築できます。私たちのポイントがでているとしましょう。この手法は、10以上のすべての係数を提供します(1つの係数を除く)。さらにポイントを追加すると(したがって、多項式の次数が増加します)、これらの係数の大きさは急速に増加します。f (x )= (x − x 1)(x − x 2)。。。。(X - X N - 1)(X - X N)のx = 1 、2 、3 、4nnnf(x)=(x−x1)(x−x2)....(x−xn−1)(x−xn)f(バツ)=(バツ−バツ1)(バツ−バツ2)。。。。(バツ−バツn−1)(バツ−バツn)f(x) = (x-x_1)(x-x_2)....(x-x_{n-1})(x-x_n)x=1,2,3,4バツ=1、2、3、4x=1,2,3,4 この例は、現在、モデル係数のサイズと生成されたモデルの「複雑さ」をどのように結びつけているのかを示していますが、実際の動作を実際に示すためにこのケースが不毛になることを心配しています。私は意図的にオーバーフィットモデル(2次サンプリングモデルから生成されたデータにフィットする10次多項式OLS)を構築し、私のモデルでほとんど小さな係数を見ることに驚きました: set.seed(123) xv = seq(-5,15,length.out=1e4) x=sample(xv,20) gen=function(v){v^2 + 7*rnorm(length(v))} y=gen(x) df = data.frame(x,y) model = lm(y~poly(x,10,raw=T), data=df) summary(abs(model$coefficients)) # Min. 1st Qu. Median …


2
1つの確率変数の関数の分散
既知の分散と平均を持つランダム変数があるとしましょう。問題は、与えられた関数f の分散は何ですか?私が知っている唯一の一般的な方法はデルタ法ですが、近似のみを提供します。今、私はに興味がありますが、いくつかの一般的な方法を知っておくといいでしょう。XXXf(X)f(X)f(X)f(x)=x−−√f(x)=xf(x)=\sqrt{x} 編集2010年12月29日 私はテイラー級数を使用していくつかの計算を行ってきたが、私は誰かができれば、私は喜んでいると思いますので、彼らは、正しいかどうかわからないんだけど、確認し、それらを。 まず、を近似する必要がありますE[f(X)]E[f(X)]E[f(X)] E[f(X)]≈E[f(μ)+f′(μ)(X−μ)+12⋅f′′(μ)(X−μ)2]=f(μ)+12⋅f′′(μ)⋅Var[X]E[f(X)]≈E[f(μ)+f′(μ)(X−μ)+12⋅f″(μ)(X−μ)2]=f(μ)+12⋅f″(μ)⋅Var[X]E[f(X)] \approx E[f(\mu)+f'(\mu)(X-\mu)+\frac{1}{2}\cdot f''(\mu)(X-\mu)^2]=f(\mu)+\frac{1}{2}\cdot f''(\mu)\cdot Var[X] これで、 E [(f(X)-E [f(X)])^ 2] \ approx E [(f(\ mu)+ f '(\ mu)( X- \ mu)+ \ frac {1} {2} \ cdot f ''(\ mu)(X- \ mu)^ 2 -E [f(X)])^ 2]E [ (F (X )- E [ F (X …

3
既知のグループ分散、平均、およびサンプルサイズを指定して、2つ以上のグループのプールされた分散を計算する方法は?
言うがあるm+nm+nm+n要素は、二つのグループに分け(mmmおよびnnn)。第1グループの分散であり、σ2mσm2\sigma_m^2及び第2グループの分散であり、σ2nσn2\sigma^2_n。要素自体は不明であると想定されているが、私は知っている手段μmμm\mu_mとμnμn\mu_n。 複合分散計算する方法があるσ2(m+n)σ(m+n)2\sigma^2_{(m+n)}? 分散は不偏である必要はないので、分母は(m+n)(m+n)(m+n)あり、(m+n−1)(m+n−1)(m+n-1)ありません。
32 variance  pooling 

1
時系列上の混合効果モデルからの予測値の合計の分散
時系列の予測を行う混合効果モデル(実際には一般化された加算混合モデル)があります。自己相関に対抗するために、データが欠落しているという事実から、corCAR1モデルを使用します。データは私に総負荷を与えることになっているので、予測区間全体で合計する必要があります。ただし、その合計負荷の標準誤差の推定値も取得する必要があります。 すべての予測が独立している場合、これは次の方法で簡単に解決できます。 with V a r (E [ X i ] )= S E (E [ X i ] )2Va r (∑ni = 1E[ X私] )= ∑ni = 1Va r (E[ X私] )Var(∑私=1nE[バツ私])=∑私=1nVar(E[バツ私])Var(\sum^{n}_{i=1}E[X_i]) = \sum^{n}_{i=1}Var(E[X_i])Va r (E[ X私] )= SE(E[ X私] )2Var(E[バツ私])=SE(E[バツ私])2Var(E[X_i]) = SE(E[X_i])^2 問題は、予測値がモデルからのものであり、元のデータに自己相関があることです。問題全体が次の質問につながります。 計算された予測のSEは、その予測の期待値の分散のルートとして解釈できると仮定して正しいですか?私は、予測を「平均予測」として解釈する傾向があるため、平均のセット全体を合計します。 この問題に自己相関を組み込むにはどうすればよいですか、または結果にあまり影響を与えないと安全に想定できますか? これはRの例です。実際のデータセットには約34.000の測定値があるため、スケーラビリティが問題になります。それが、私が毎月内に自己相関をモデル化する理由です。そうしないと、計算が不可能になります。それは最も正しい解決策ではありませんが、最も正しい解決策は実行不可能です。 set.seed(12) require(mgcv) …

2
従属変数の積の分散
従属変数の積の分散の式は何ですか? 独立変数の場合、式は単純です: var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2 {\rm var}(XY) = E(X^{2}Y^{2}) - E(XY)^{2} = {\rm var}(X){\rm var}(Y) + {\rm var}(X)E(Y)^2 + {\rm var}(Y)E(X)^2 しかし、相関変数の式は何ですか? ところで、統計データに基づいて相関関係を見つけるにはどうすればよいですか?

5
機械学習で階層/ネストされたデータを処理する方法
例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

6
有限分散をテストしますか?
サンプルが与えられたランダム変数の分散の有限性(または存在)をテストすることは可能ですか?nullとして、{分散が存在し有限である}または{分散が存在しない/無限である}のいずれかが受け入れられます。哲学的に(そして計算上)、これは非常に奇妙に思えます。なぜなら、有限分散のない母集団と非常に大きな分散(例えば、> )の母集団の間に差がないはずなので、この問題が解決できるとは思えません。104001040010^{400} 私に提案された1つのアプローチは、中央限界定理によるものでした:サンプルがiidであり、母集団が有限平均を持っていると仮定すると、サンプルサイズが大きくなるにつれてサンプル平均に正しい標準誤差があるかどうかを何らかの方法でチェックできます。ただし、この方法が機能するかどうかはわかりません。(特に、適切なテストにする方法がわかりません。)

4
分布の不均一性をどのように測定しますか?
私が実行している実験の分布の不均一性を測定するためのメトリックを考えています。ほとんどの場合、均一に分布するランダム変数があり、変数が一定のマージン内で均一に分布していないデータセットの例を識別(および場合によってはその程度を測定)できるようにしたいと思います。 私が測定している何かの発生頻度を表す10の測定値を持つ3つのデータシリーズの例は、次のようなものです。 a: [10% 11% 10% 9% 9% 11% 10% 10% 12% 8%] b: [10% 10% 10% 8% 10% 10% 9% 9% 12% 8%] c: [ 3% 2% 60% 2% 3% 7% 6% 5% 5% 7%] <-- non-uniform d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%] cのような分布をaやbのような分布と区別し、均一な分布からのcの偏差を測定できるようにしたいと思います。同様に、分布がどの程度均一であるか(標準偏差がゼロに近い?)のメトリックがある場合は、おそらくそれを使用して分散の大きいものを区別できます。ただし、上記のcの例のように、データには1つまたは2つの外れ値しかない場合があり、そのように簡単に検出できるかどうかはわかりません。 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.