タグ付けされた質問 「unbiased-estimator」

平均で「真の値にヒットする」母集団パラメーターの推定量を指します。つまり、観測データ関数は、場合、パラメーター不偏推定量です。不偏推定量の最も単純な例は、母平均の推定量としてのサンプル平均です。 θ^θEθ^=θ

3
一貫性のある推定量と公平な推定量の違いは何ですか?
誰もこれをすでに尋ねていないように見えることに本当に驚いています... 推定量について議論するとき、頻繁に使用される2つの用語は「一貫性のある」と「不偏」です。私の質問は簡単です:違いは何ですか? これらの用語の正確な技術的定義はかなり複雑であり、その意味を直感的に理解することは困難です。良い評価者と悪い評価者を想像できますが、どの評価者がどのように一方の条件を満たし、もう一方の条件を満たさないかを見るのに苦労しています。

8
既存の変数と定義された相関関係を持つランダム変数を生成します
シミュレーション研究のために、既存の変数に対する事前定義された(母集団)相関を示すランダム変数を生成する必要があります。YYY 私は、に見えたRパッケージcopulaとCDVine特定の依存構造を持つランダムな多変量分布を生成することができました。ただし、結果の変数の1つを既存の変数に修正することはできません。 アイデアや既存の機能へのリンクを歓迎します! 結論: さまざまなソリューションで、2つの有効な答えが出ました。 カラカルによるR スクリプト。事前定義された変数との正確な(サンプル)相関を持つランダム変数を計算します 事前定義された変数に対する定義された母集団相関を持つランダム変数を計算するR 関数 [@ttnphnsの追加:質問のタイトルを単一の固定変数の場合から任意の数の固定変数に拡大するために自由を取りました。すなわち、いくつかの固定された既存の変数と事前定義された相関を持つ変数を生成する方法]

5
統計学者は、シミュレーションなしで母分散の不偏推定量として(n-1)を使用することにどの程度同意しましたか?
分散を計算する式の分母にはがあります。(n−1)(n−1)(n-1) s2=∑Ni=1(xi−x¯)2n−1s2=∑i=1N(xi−x¯)2n−1s^2 = \frac{\sum_{i=1}^N (x_i - \bar{x})^2}{n-1} なぜだろうといつも思っていました。しかし、「」が「なぜ」であるかについてのいくつかの優れたビデオを読んで見ることは、人口分散の優れた公平な推定量であるようです。一方、母分散を過小評価し、過大評価します。n (n − 2 )(n−1)(n−1)(n-1)nnn(n−2)(n−2)(n-2) 私が知りたいのは、コンピューターが存在しない時代に、この選択がどれほど正確に行われたかということです。これを証明する実際の数学的証明はありますか、またはこの純粋に経験的かつ統計学者は当時の「最良の説明」を思いつくために多くの計算を手作業で行いましたか? 統計学者は、19世紀初頭にコンピューターの助けを借りてどのようにしてこの公式を思いついたのでしょうか?マニュアルまたはそれは目に会う以上のものですか?

2
スタインのパラドックスが次元のみ適用される理由の背後にある直観
スタインの例は、平均および分散をもつ正規分布変数の最尤推定値は場合に許容できないことを示しています(平方損失関数の下)。きちんとした証拠については、大規模推論の最初の章を参照してください: Bradley Effronによる推定、テスト、および予測のための経験的ベイズ法。μ 1、... 、μ nは 1 のn ≥ 3nnnμ1,…,μnμ1,…,μn\mu_1,\ldots,\mu_n111n≥3n≥3n\ge 3 、最も注目すべきは(これは非常に最初に私には驚くべきことであったが、1は、標準的な推定値は許容できないことを期待するかもしれない理由の背後にあるいくつかの直感があった場合、その後、 n。Steinの元の論文で概説されているように、以下にリンクされています)。x∼N(μ,1)x∼N(μ,1)x \sim \mathcal N(\mu,1)E∥x∥2≈∥μ∥2+nE‖x‖2≈‖μ‖2+n\mathbb{E}\|x\|^2\approx \|\mu\|^2+n 私の質問はむしろ:nnn次元空間(n≥3n≥3n\ge 3)のどの特性がR2R2\mathbb{R}^2欠けており、それがSteinの例を容易にしているのか?可能な答えは、nnn球の曲率、またはまったく異なるものです。 つまり、\ mathbb {R} ^ 2で MLEが許容されるのはなぜR2R2\mathbb{R}^2ですか? 編集1: @mpiktasへの応答では、1.30から1.31に続く懸念: Eμ(∥z−μ^∥2)=Eμ(S(N−2S)2)=Eμ((N−2)2S).Eμ(‖z−μ^‖2)=Eμ(S(N−2S)2)=Eμ((N−2)2S).E_\mu\left(\|z-\hat{\mu}\|^2\right)=E_\mu\left(S\left(\frac{N-2}{S}\right)^2\right)=E_\mu\left(\frac{(N-2)^2}{S}\right). μi^=(1−N−2S)ziμi^=(1−N−2S)zi\hat{\mu_i} = \left(1-\frac{N-2}{S}\right)z_iようEμ(∂μi^∂zi)=Eμ(1−N−2S+2z2iS2).Eμ(∂μi^∂zi)=Eμ(1−N−2S+2zi2S2).E_\mu\left(\frac{\partial\hat{\mu_i}}{\partial z_i} \right)=E_\mu\left( 1-\frac{N-2}{S}+2\frac{z_i^2}{S^2}\right).したがって、次のものがあります。 2∑i=1NEμ(∂μi^∂zi)=2N−2Eμ(N(N−2)S)+4Eμ((N−2)S)=2N−Eμ2(N−2)2S.2∑i=1NEμ(∂μi^∂zi)=2N−2Eμ(N(N−2)S)+4Eμ((N−2)S)=2N−Eμ2(N−2)2S.2\sum_{i=1}^N E_\mu\left(\frac{\partial\hat{\mu_i}}{\partial z_i} \right)=2N-2E_\mu\left(\frac{N(N-2)}{S}\right)+4E_\mu\left(\frac{(N-2)}{S}\right)\\=2N-E_\mu\frac{2(N-2)^2}{S}. 編集2:この論文では、スタインは、MLEがN = 2に対して許容されることを証明していN=2N=2N=2ます。

3
対数変換された予測子および/または応答の解釈
従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのか​​と思います。 の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

5
サンプルサイズ1から母集団について何と言うことができますか?
母集団の平均値について、もしあるとすれば何と言えるのか、1つの測定値y 1(サンプルサイズ1)だけでとき、μを疑問に思います。明らかに、より多くの測定値が必要ですが、それらを取得することはできません。μμ\muy1y1y_1 これは、サンプルの平均のでように思わに自明等しいY 1、次いで、E [ ˉ Y ] = E [ Y 1 ] = μ。しかし、1のサンプルサイズで、サンプル分散が定義されていないため、使用中に私たちの自信ˉ Yの推定量としてμは、正しい、定義されていませんか?μの推定値を制限する方法はありますか?y¯y¯\bar{y}y1y1y_1E[ y¯] = E[ y1] = μE[y¯]=E[y1]=μE[\bar{y}]=E[y_1]=\muy¯y¯\bar{y}μμ\muμμ\mu


6
共分散推定量の分母がn-1ではなくn-2にならないのはなぜですか?
(不偏)分散推定量の分母はであり、観測値があり、推定されるパラメーターは1つだけです。n−1n−1n-1nnn V(X)=∑ni=1(Xi−X¯¯¯¯)2n−1V(X)=∑i=1n(Xi−X¯)2n−1 \mathbb{V}\left(X\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}}{n-1} 同様に、2つのパラメーターを推定するときに共分散の分母をにしないのはなぜでしょうか?n−2n−2n-2 Cov(X,Y)=∑ni=1(Xi−X¯¯¯¯)(Yi−Y¯¯¯¯)n−1Cov(X,Y)=∑i=1n(Xi−X¯)(Yi−Y¯)n−1 \mathbb{Cov}\left(X, Y\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)\left(Y_{i}-\overline{Y}\right)}{n-1}

3
ロジスティック回帰の95%信頼区間を手動で計算することと、Rでconfint()関数を使用することに違いがあるのはなぜですか?
皆さん、私は説明できない奇妙なことに気づきました、できますか?要約すると、ロジスティック回帰モデルで信頼区間を計算する手動のアプローチとR関数confint()は異なる結果をもたらします。 Hosmer&LemeshowのApplied Logistic Regression(第2版)を行ってきました。第3章には、オッズ比と95%の信頼区間を計算する例があります。Rを使用すると、モデルを簡単に再現できます。 Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

3
R:データセットにNaNがないにもかかわらず、「Forest function call」エラーでNaN / Infをスローするランダムフォレスト[非公開]
キャレットを使用して、データセットに対してクロス検証されたランダムフォレストを実行しています。Y変数は要因です。データセットにNaN、Inf、またはNAはありません。ただし、ランダムフォレストを実行すると、 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 


4
偏りのない最尤推定量は常に最良の偏りのない推定量ですか?
規則的な問題については、最良の正規の不偏推定量があれば、それは最尤推定量(MLE)でなければなりません。しかし、一般に、偏りのないMLEがある場合、それは最良の偏りのない推定量にもなります(または、分散が最小である限り、UMVUEと呼ぶべきでしょうか)。

2
縮退
ピアソン相関係数の人口値の2種類の推定量について、私の頭の中にいくつかの混乱がありました。 A. フィッシャー(1915)二変量正規母集団実証するためにあることを示したである負にバイアスの推定量ρバイアスだけ小さいサンプルサイズ(のために実際にかなりの量であることができるが、N &lt; 30)。サンプルrは、ρよりも0に近いという意味でρを過小評価しています。(後者が0または± 1の場合を除き、rは不偏です。)ρのほぼ不偏の推定量がいくつか提案されています。rrrρρ\rhon&lt;30n&lt;30n<30rrrρρ\rho000ρρ\rho000±1±1\pm 1rrrρρ\rhoオルキンとプラット(1958)は修正しました。rrr runbiased=r[1+1−r22(n−3)]runbiased=r[1+1−r22(n−3)]r_\text{unbiased} = r \left [1+\frac{1-r^2}{2(n-3)} \right ] B.回帰では、は対応する母集団のR平方を過大評価していると言われています。または、単回帰で、それはつまり、R 2つの過大評価はρ 2。事実に基づいて、私はそれを言って、多くのテキストを見てきましたrがされ積極相対バイアスにρを絶対値を意味する、:rは遠くからである0よりρ(?その文が真です)。テキストは、サンプル値による標準偏差パラメーターの過大評価と同じ問題であると述べています。観測されたR 2を「調整」するための多くの式が存在しますR2R2R^2r2r2r^2ρ2ρ2\rho^2rrrρρ\rhorrr000ρρ\rhoR2R2R^2人口パラメータに近いWherryの(1931) は最もよく知られています(ただし、最良ではありません)。そのような調整されたr 2 adjのルートはshrunken rと呼ばれます:R2adjRadj2R_\text{adj}^2r2adjradj2r_\text{adj}^2 rrr rshrunk=±1−(1−r2)n−1n−2−−−−−−−−−−−−−−√rshrunk=±1−(1−r2)n−1n−2r_\text{shrunk} = \pm\sqrt{1-(1-r^2)\frac{n-1}{n-2}} 2つの異なる推定量が存在します。非常に異なる:最初のものはrを膨張させ、2番目はrを収縮させます。それらを調整する方法は?1つをどこで使用/報告し、もう1つを報告しますか?ρρ\rhorrrrrr 特に、「縮められた」推定量も(ほぼ)偏りのない「偏りのない」推定値であるが、異なるコンテキストでのみ-回帰の非対称コンテキストであるというのは事実でしょうか。というのは、OLS回帰では、片側(予測子)の値を固定値と見なし、サンプルからサンプルへのランダムエラーなしで対応するためですか?(そして、ここに追加するために、回帰は二変量正規性を必要としません。)

2
加重分散のバイアス補正
重み付けされていない分散 場合、同じデータから平均が推定されたときにバイアス補正されたサンプル分散が存在します: ヴァー(X):= 1n∑私(x私- μ )2ヴァール(バツ):=1n∑私(バツ私−μ)2\text{Var}(X):=\frac{1}{n}\sum_i(x_i - \mu)^2ヴァー(X):= 1n − 1∑私(x私− E[ X] )2ヴァール(バツ):=1n−1∑私(バツ私−E[バツ])2\text{Var}(X):=\frac{1}{n-1}\sum_i(x_i - E[X])^2 私は加重平均と分散を調べており、加重分散の適切なバイアス補正とは何なのか疑問に思っています。使用: 平均(X):= 1∑私ω私∑私ω私バツ私平均(バツ):=1∑私ω私∑私ω私バツ私\text{mean}(X):=\frac{1}{\sum_i \omega_i}\sum_i \omega_i x_i 私が使用している「単純な」未修正の分散は、次のとおりです。 ヴァー(X):= 1∑私ω私∑私ω私(x私− 平均(X))2ヴァール(バツ):=1∑私ω私∑私ω私(バツ私−平均(バツ))2\text{Var}(X):=\frac{1}{\sum_i \omega_i}\sum_i\omega_i(x_i - \text{mean}(X))^2 だから、バイアスを修正する正しい方法は A) ヴァー(X):= 1∑私ω私− 1∑私ω私(x私− 平均(X))2ヴァール(バツ):=1∑私ω私−1∑私ω私(バツ私−平均(バツ))2\text{Var}(X):=\frac{1}{\sum_i \omega_i - 1}\sum_i\omega_i(x_i - \text{mean}(X))^2 またはB) ヴァー(X):= nn − 11∑私ω私∑私ω私(x私− 平均(X))2ヴァール(バツ):=nn−11∑私ω私∑私ω私(バツ私−平均(バツ))2\text{Var}(X):=\frac{n}{n-1}\frac{1}{\sum_i \omega_i}\sum_i\omega_i(x_i - \text{mean}(X))^2 またはC) …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.