タグ付けされた質問 「variance」

確率変数の平均からの予想される二乗偏差。または、それらの平均についてのデータの平均二乗偏差。

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 


1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

2
変動は分散と同じですか?
これは、ここでのクロス検証に関する最初の質問ですので、些細なことでも手伝ってください。それにもかかわらず、ここにあります: 人口統計では、変動と分散は同じ用語ですか?そうでない場合、2つの違いは何ですか? 分散は標準偏差の二乗であることを知っています。また、データがどの程度スパースであるかを示す尺度であり、その計算方法も知っています。 しかし、私は「モデル思考」と呼ばれるCoursera.orgのコースをフォローしており、講師は明らかに変化を説明しましたが、常にそれを変化と呼んでいました。それで少し混乱しました。 公平を期すために、彼は常に母集団内の特定のインスタンスのバリエーションの計算について話しました。 それらが交換可能である場合、またはおそらく私が何かを見逃している場合、誰かが私にそれを明確にすることができますか?

2
分散と平均二乗誤差の違いは何ですか?
これが以前に聞かれたことがないことに驚いていますが、stats.stackexchangeで質問を見つけることができません。 これは、正規分布のサンプルの分散を計算する式です。 ∑(X−X¯)2n−1∑(X−X¯)2n−1\frac{\sum(X - \bar{X}) ^2}{n-1} これは、単純な線形回帰で観測値の二乗平均誤差を計算する式です。 ∑(yi−y^i)2n−2∑(yi−y^i)2n−2\frac{\sum(y_i - \hat{y}_i) ^2}{n-2} これらの2つの式の違いは何ですか?私が見ることができる唯一の違いは、MSEが使用することです。それが唯一の違いであるなら、なぜそれらを両方の分散として参照するのではなく、異なる自由度で?n−2n−2n-2
27 variance  error 


3
1つの観測値の分散の信頼区間
これは、「確率論における第7回コルモゴロフ学生オリンピック」の問題です。 両方のパラメーターが不明な分布から1つの観測値与えられた場合、少なくとも99%の信頼レベルで信頼区間を与えます。XXXNormal(μ,σ2)Normal⁡(μ,σ2)\operatorname{Normal}(\mu,\sigma^2)σ2σ2\sigma^2 私には、これは不可能であると思われます。解決策はありますが、まだ読んでいません。何かご意見は? 数日中にソリューションを投稿します。 [次の編集:以下に掲載されている公式ソリューション。Cardinalのソリューションはより長くなりますが、より良い信頼区間を提供します。また、入力してくれたMaxとGlen_bにも感謝します。]

2
観測値が重複している場合、サンプルの分散が変化するのはなぜですか?
分散は広がりの尺度と言われています。ですから、数値は等しく3,5分散し3,3,5,5ているため、の分散はの分散に等しいと考えていました。しかし、これはそうではなく、isの分散は3,5is 2の分散3,3,5,5です1 1/3。 分散は広がりの尺度であると説明されているので、これは私を困惑させます。 だから、その文脈では、広がりの測定はどういう意味ですか?
25 variance 

1
ビニングされた観測値の標準偏差
サンプル観測値のデータセットがあり、範囲ビン内のカウントとして保存されています。例えば: min/max count 40/44 1 45/49 2 50/54 3 55/59 4 70/74 1 さて、これから平均の推定値を見つけることは非常に簡単です。各範囲ビンの平均(または中央値)を観測値として使用し、カウントを重みとして使用して、加重平均を見つけます。 x¯∗=1∑Ni=1wi∑i=1Nwixix¯∗=1∑i=1Nwi∑i=1Nwixi\bar{x}^* = \frac{1}{\sum_{i=1}^N w_i} \sum_{i=1}^N w_ix_i 私のテストケースでは、53.82になります。 私の質問は、標準偏差(または分散)を見つける正しい方法は何ですか? 検索を通じていくつかの答えを見つけましたが、どれが実際にデータセットに適切かはわかりません。ここでの別の質問とランダムなNISTドキュメントの両方で次の公式を見つけることができました。 s2∗=∑Ni=1wi(xi−x¯∗)2(M−1)M∑Ni=1wis2∗=∑i=1Nwi(xi−x¯∗)2(M−1)M∑i=1Nwis^{2*} = \frac{ \sum_{i=1}^N w_i (x_i - \bar{x}^*)^2 }{ \frac{(M-1)}{M} \sum_{i=1}^N w_i } テストケースの標準偏差は8.35です。ただし、加重平均に関するウィキペディアの記事には、両方の式が記載されています。 s2∗=∑Ni=1wi(∑Ni=1wi)2−∑Ni=1w2i∑i=1Nwi(xi−x¯∗)2s2∗=∑i=1Nwi(∑i=1Nwi)2−∑i=1Nwi2∑i=1Nwi(xi−x¯∗)2s^{2*} = \frac{ \sum_{i=1}^N w_i}{(\sum_{i=1}^N w_i)^2 - \sum_{i=1}^N w_i^2} \sum_{i=1}^N w_i(x_i-\bar{x}^*)^2 そして s2 …


2
加重分散のバイアス補正
重み付けされていない分散 場合、同じデータから平均が推定されたときにバイアス補正されたサンプル分散が存在します: ヴァー(X):= 1n∑私(x私- μ )2ヴァール(バツ):=1n∑私(バツ私−μ)2\text{Var}(X):=\frac{1}{n}\sum_i(x_i - \mu)^2ヴァー(X):= 1n − 1∑私(x私− E[ X] )2ヴァール(バツ):=1n−1∑私(バツ私−E[バツ])2\text{Var}(X):=\frac{1}{n-1}\sum_i(x_i - E[X])^2 私は加重平均と分散を調べており、加重分散の適切なバイアス補正とは何なのか疑問に思っています。使用: 平均(X):= 1∑私ω私∑私ω私バツ私平均(バツ):=1∑私ω私∑私ω私バツ私\text{mean}(X):=\frac{1}{\sum_i \omega_i}\sum_i \omega_i x_i 私が使用している「単純な」未修正の分散は、次のとおりです。 ヴァー(X):= 1∑私ω私∑私ω私(x私− 平均(X))2ヴァール(バツ):=1∑私ω私∑私ω私(バツ私−平均(バツ))2\text{Var}(X):=\frac{1}{\sum_i \omega_i}\sum_i\omega_i(x_i - \text{mean}(X))^2 だから、バイアスを修正する正しい方法は A) ヴァー(X):= 1∑私ω私− 1∑私ω私(x私− 平均(X))2ヴァール(バツ):=1∑私ω私−1∑私ω私(バツ私−平均(バツ))2\text{Var}(X):=\frac{1}{\sum_i \omega_i - 1}\sum_i\omega_i(x_i - \text{mean}(X))^2 またはB) ヴァー(X):= nn − 11∑私ω私∑私ω私(x私− 平均(X))2ヴァール(バツ):=nn−11∑私ω私∑私ω私(バツ私−平均(バツ))2\text{Var}(X):=\frac{n}{n-1}\frac{1}{\sum_i \omega_i}\sum_i\omega_i(x_i - \text{mean}(X))^2 またはC) …


1
5人の被験者の100個の測定値が、100人の被験者の5個の測定値よりもはるかに少ない情報を提供することを示す
会議で、私は次の声明を耳にしました。 5人の被験者の100の測定値は、100人の被験者の5つの測定値よりもはるかに少ない情報を提供します。 これが本当であることは明らかですが、数学的にどのように証明できるのか疑問に思っていました...線形混合モデルを使用できると思います。ただし、それらの推定に使用される数学についてはあまり知りません(lmer4LMMおよびGLMMで実行するだけbmrsです)。これが真実である例を教えてください。Rの一部のコードよりも、いくつかの式を使用した回答を希望します。たとえば、正規分布のランダムインターセプトとスロープを持つ線形混合モデルなど、簡単な設定を想定してください。 PS LMMを含まない数学ベースの回答も大丈夫でしょう。LMMは、より多くの被験者からのより少ない測定値が少数の被験者からのより多くの測定値よりも優れている理由を説明するための自然なツールのように思えたため、LMMについて考えました。

2
循環データを使用して分散の等価性をテストする方法
8つの異なるサンプル(それぞれ異なる母集団から)内の変動の量を比較することに興味があります。これは、比率データを使用したいくつかの方法で実行できることを知っています:F検定の分散の等価性、リーベン検定など。 ただし、私のデータは円形/方向(つまり、風向や一般的な角度データ、または時刻などの周期性を示すデータ)です。私はいくつかの研究を行った結果、Rの「CircStats」パッケージに「Watson's test for homogeneity」という1つのテストが見つかりました。1つの欠点は、このテストでは2つのサンプルのみを比較することです。つまり、8つのサンプルで複数の比較を行う必要があります(その後、Bonferonni補正を使用します)。 私の質問は次のとおりです。 1)使用できるより良いテストはありますか? 2)そうでない場合、ワトソンのテストの前提は何ですか?パラメトリック/ノンパラメトリックですか? 3)このテストを実行できるアルゴリズムは何ですか?私のデータはMatlabにあり、テストを実行するためにRに転送する必要はありません。むしろ自分の関数を書くだけです。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.