タグ付けされた質問 「variance」

確率変数の平均からの予想される二乗偏差。または、それらの平均についてのデータの平均二乗偏差。

4
glmerでのランダム効果の分散の解釈
データが二項分布である受粉に関する論文を改訂しています(果実は成熟するかしないか)。そのためglmer、1つのランダム効果(個々の植物)と1つの固定効果(治療)を使用しました。レビューアーは、植物が結実に影響を与えたかどうかを知りたいのですが、glmer結果の解釈に問題があります。 私はウェブを読んでみましたが、直接比較glmとglmerモデルに問題がある可能性があるので、私はそれをしていません。この質問に答える最も簡単な方法は、変量効果の分散(1.449、以下)を総分散、または処理によって説明される分散と比較することだと考えました。しかし、これらの他の分散をどのように計算しますか?以下の出力には含まれていないようです。二項glmer分布に含まれない残差分散について何かを読みました-ランダム効果の相対的な重要性をどのように解釈しますか? > summary(exclusionM_stem) Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) [glmerMod] Family: binomial ( logit ) Formula: cbind(Fruit_1, Fruit_0) ~ Treatment + (1 | PlantID) AIC BIC logLik deviance df.resid 125.9 131.5 -59.0 117.9 26 Scaled residuals: Min 1Q Median 3Q Max -2.0793 -0.8021 -0.0603 0.6544 …

1
コーエンの
Cohenのは、エフェクトのサイズを測定する最も一般的な方法の1つです(Wikipediaを参照)。プールされた標準偏差に関して2つの平均間の距離を単純に測定します。Cohenのdの分散推定の数式をどのように導出できますか? dddddd 2015年12月編集:この質問に関連するのは、dの周りの信頼区間を計算するという考え方です。この記事ではddd σ2d=n+n×+d22n+σd2=n+n×+d22n+\sigma_{d}^2 = \dfrac{n_{+}}{n_{\times}} + \dfrac{d^2}{2n_{+}} ここで、は2つのサンプルサイズの合計であり、n ×は2つのサンプルサイズの積です。n+n+n_{+}n×n×n_{\times} この式はどのように導出されますか?

1
フィッシャー情報の決定要因
(同様の質問をmath.seに投稿しました。) 情報幾何学では、フィッシャー情報行列の行列式は統計多様体上の自然な体積形式であるため、幾何学的な解釈が優れています。たとえば、ジェフリーズの事前定義に現れるという事実は、再パラメータ化の下での不変性に関連しています。これは幾何学的特性です。 しかし、統計におけるその決定要因は何ですか?意味のあるものを測定しますか?(たとえば、ゼロの場合、パラメーターは独立していないと言います。これはさらに先へ進みますか?) また、少なくともいくつかの「簡単な」場合に、それを計算するための閉じた形式はありますか?

5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

3
箱ひげ図から分散を推定する
私は箱ひげ図を使用して変数の分散をどのように推測するのか疑問に思っていました。少なくとも、2つの変数がそれらの箱ひげ図を観察して同じ分散を持っているかどうかを推測することは可能ですか?
12 variance  boxplot 

3
二項分布のフィッシャー情報が
二項式の分散が比例するということは、私の心を混乱させたり吹き飛ばしたりします。同様に、フィッシャー情報は1に比例します。p(1−p)p(1−p)p(1-p)。この理由は何ですか?フィッシャー情報がp=0.5で最小化されるのはなぜですか?つまり、p=0.5で推論が最も難しいのはなぜですか1p(1−p)1p(1−p)\frac{1}{p(1-p)}p=0.5p=0.5p=0.5p=0.5p=0.5p=0.5ですか? 環境: 私はサンプルサイズ計算機で作業しており、必要なサンプルサイズであるの式は、p (1 − p )の増加因子であり、導出における分散推定の結果です。NNNp(1−p)p(1−p)p(1-p)

2
多重代入データセット間でブートストラップされたp値をプールするにはどうすればよいですか?
乗算代入(MI)データからを推定するためにp値をブートストラップしたいのですが、MIセット全体でp値を結合する方法が不明確であるという問題に関心があります。θθ\theta MIデータセットの場合、推定値の合計分散を取得する標準的なアプローチでは、Rubinのルールを使用します。MIデータセットのプーリングのレビューについては、こちらをご覧ください。合計分散の平方根は、標準誤差推定として機能します。ただし、推定量によっては、総分散に既知の閉形式がないか、サンプリング分布が正規ではありません。統計量θ / s e (θ )は、漸近的ではなく、t分布しない場合があります。θθ\thetaθ / s e (θ )θ/se(θ){\theta}/{se(\theta)} したがって、完全なデータの場合、1つの代替オプションは、統計をブートストラップして分散、p値、および信頼区間を見つけることです。たとえ、サムリング分布が正規でなく、その閉形式が不明であってもです。MIの場合、2つのオプションがあります。 MIデータセット全体でブートストラップされた分散をプールする MIデータセット全体でp値または信頼限界をプールする θθ\theta だから私の質問は次のとおりです。複数の代入データセットにまたがって複数のブートストラップされたp値(または信頼区間)をプールする方法は? 進め方についての提案を歓迎します、ありがとうございます。


3
一元配置分散分析の不等分散の代替
等しいサイズの3つのグループで平均を比較したいと思います(等しいサンプルサイズは小さい、21)。各グループの平均は通常分布していますが、それらの分散は等しくありません(Leveneを介してテストされます)。この状況では、変換が最適なルートですか?最初に何か他のものを考慮する必要がありますか?

1
RのPROC Mixedとlme / lmerの違い-自由度
注:法的な理由で以前の質問を削除する必要があったため、この質問は再投稿です。 SASのPROC MIXED をR lmeのnlmeパッケージの関数と比較していると、やや紛らわしい違いを見つけました。より具体的には、異なるテストの自由度はとの間PROC MIXEDで異なり、lmeなぜだろうと思いました。 次のデータセットから開始します(以下のRコード)。 ind:測定が行われる個人を示す因子 fac:測定が行われる臓器 trt:治療を示す因子 y:連続応答変数 アイデアは、次の単純なモデルを構築することです: y ~ trt + (ind):indランダムな要因として y ~ trt + (fac(ind)):facにネストされたindランダムな要因として、 最後のモデルでは特異性が生じることに注意してください。とのyすべての組み合わせに対しての値は1つだけです。indfac 最初のモデル SASでは、次のモデルを作成します。 PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; チュートリアルによると、使用しているRの同じモデルnlmeは次のようになります。 > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 両方のモデルは、係数とそのSEに対して同じ推定値を与えますがtrt、の効果に対してF検定を実行する場合、異なる自由度を使用します。 SAS …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

2
カウントデータの分散のパラメトリックモデリング
いくつかのデータをモデル化することを検討していますが、使用できるモデルのタイプがわかりません。カウントデータがあり、データの平均と分散の両方のパラメトリック推定値を提供するモデルが必要です。つまり、さまざまな予測因子があり、それらのいずれかが(グループ平均だけでなく)分散に影響するかどうかを判断したいのです。 分散が平均に等しいため、ポアソン回帰が機能しないことを知っています。私の場合、この仮定は有効ではないので、過剰分散があることを知っています。ただし、負の二項モデルは単一の過分散パラメーターのみを生成し、モデル内の予測変数の関数ではありません。どのモデルがこれを行うことができますか? さらに、モデルおよび/またはモデルを実装するRパッケージについて説明している書籍または論文への参照を歓迎します。

2
2つの正規分布変数の比率、または1つの逆数をパラメーター化する方法は?
問題: ベイズのメタ分析で事前分布およびデータとして使用する分布をパラメーター化しています。データは文献で要約統計として提供されており、ほぼ独占的に正規分布していると想定されています(ただし、変数は0未満にはならず、一部は比率、一部は質量など)。 解決策がない2つのケースに遭遇しました。対象のパラメーターは、データの逆数または2つの変数の比率である場合があります。 例: 2つの正規分布変数の比率: データ:窒素と炭素の割合の平均とsd パラメーター:窒素と炭素の比率。 正規分布変数の逆: データ:質量/面積 パラメーター:面積/質量 私の現在のアプローチは、シミュレーションを使用することです: たとえば、平均xbar.n、c、分散:se.n、c、およびサンプルサイズ:nn、ncの炭素と窒素のパーセントデータのセットの場合: set.seed(1) per.c <- rnorm(100000, xbar.c, se.c*n.c) # percent C per.n <- rnorm(100000, xbar.n, se.n*n.n) # percent N ratio.cn = perc.c / perc.nをパラメーター化したい # parameter of interest ratio.cn <- perc.c / perc.n 次に、事前分布に対して範囲の最適な分布を選択します0→∞0→∞0 \rightarrow \infty library(MASS) dist.fig <- list() …

2
バイアス分散方程式の数学的直観
私は最近、サンプルの平均と分散に関する基本方程式、幾何学的またはその他の背後にある数学的解釈/直感を求める質問をしました。E[X2]=Var(X)+(E[X])2E[X2]=Var(X)+(E[X])2 E[X^2] = Var(X) +(E[X])^2 しかし今、私は表面的に似ているバイアス分散のトレードオフ方程式に興味があります。 MSE(θ^)=E[(θ^−θ)2]==E[(θ^−E[θ^])2]+(E[θ^]−θ)2Var(θ^)+Bias(θ^,θ)2MSE(θ^)=E[(θ^−θ)2]=E[(θ^−E[θ^])2]+(E[θ^]−θ)2=Var(θ^)+Bias(θ^,θ)2 \begin{eqnarray} \text{MSE}(\hat{\theta}) = E [(\hat{\theta}-\theta)^2 ] &=& E[(\hat{\theta} - E[\hat\theta])^2] + (E[\hat\theta] - \theta)^2\\ &=& \text{Var}(\hat\theta) + \text{Bias}(\hat\theta,\theta)^2 \\ \end{eqnarray} (Wikipediaの式) 私には、回帰のバイアス分散のトレードオフ方程式と表面的な類似性があります。3つの項が2乗で、2つが他の項に加算されます。非常にピタゴラスを探しています。これらすべてのアイテムの直交性を含む同様のベクトル関係はありますか?または適用される他のいくつかの関連する数学的解釈はありますか? 私は光を放つかもしれない他のいくつかの数学的オブジェクトとの数学的アナロジーを求めています。ここで十分にカバーされている精度と精度の類似性は探していません。しかし、バイアス分散のトレードオフとより基本的な平均分散の関係の間に人々が与えることができる非技術的なアナロジーがある場合、それも素晴らしいでしょう。
12 variance  bias 


3
線形回帰の誤差の分散共分散行列
実際には、var / covエラーマトリックスは統計分析パッケージによってどのように計算されますか? この考えは理論的には私には明らかです。しかし実際にはそうではありません。つまり、確率変数のベクトルがある場合、分散/共分散行列平均からの逸脱ベクトルの外積が与えられます:。 ΣX=(X1,X2,…,Xn)⊤X=(X1,X2,…,Xn)⊤\textbf{X}=(X_{1}, X_{2}, \ldots, X_{n})^\topΣΣ\SigmaΣ=E[(X−E(X))(X−E(X))⊤]Σ=E[(X−E(X))(X−E(X))⊤]\Sigma=\mathrm{E}\left[(\textbf{X}-\mathrm{E}(\textbf{X}))(\textbf{X}-\mathrm{E}(\textbf{X}))^\top\right] しかし、サンプルがある場合、私の観測の誤差は確率変数ではありません。またはそれ以上ですが、同じ母集団から多数の同一のサンプルを取得した場合のみです。そうでなければ、それらは与えられます。だから、再び私の質問は:統計パッケージはどのようにして研究者によって提供された観測(つまりサンプル)のリストから始まるvar / cov行列を生成できるのでしょうか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.