タグ付けされた質問 「standard-error」

サンプルから計算された統計量のサンプリング分布の標準偏差を指します。統計のサンプリング元である母集団について信頼区間を形成したり仮説を検定したりする場合、標準誤差が必要になることがよくあります。

15
標準偏差を計算するときにで除算するための直感的な説明
あなたがで二乗誤差の合計を割り、なぜ私はクラスで今日聞かれた代わりにとの、標準偏差を計算します。n − 1n−1n-1nnn 私は、私は(私は公平な推定に行きたいしませんでしたので)クラスでそれに答えるつもりはありませんと述べたが、その後、私は疑問に思った- があり、このための直観的な説明は?



3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

2
線形回帰の予測値の信頼区間の形状
線形回帰の予測値の信頼区間は、予測値の平均付近で狭くなり、予測値の最小値と最大値付近で太くなる傾向があることに気付きました。これは、次の4つの線形回帰のプロットで見ることができます。 これは、予測子のほとんどの値が予測子の平均値に集中しているためだと当初考えました。ただし、予測変数の多くの値が最小値の周りに集中している左下の線形回帰のように、予測変数の極値の近くに多くの値が集中していても、信頼区間の狭い中央が発生することに気付きました予測子。 線形回帰の予測値の信頼区間が中間で狭く、極端に太くなる傾向がある理由を説明できる人はいますか?

6
Rを使用した投げ縄予測の標準誤差
予測にLASSOモデルを使用しようとしていますが、標準誤差を推定する必要があります。きっと誰かがこれを行うためのパッケージをすでに書いています。しかし、私が見る限り、LASSOを使用して予測を行うCRANのパッケージはいずれも、それらの予測の標準エラーを返しません。 だから私の質問は次のとおりです。LASSO予測の標準エラーを計算するために利用可能なパッケージまたはRコードはありますか?

4
二項確率変数のサンプルの平均の標準誤差
2つの結果を持つことができる実験を実行しており、2つの結果の基礎となる「真の」分布は、パラメーターnnnと持つ二項分布であると仮定していますppp:Binomial(n,p)Binomial(n,p){\rm Binomial}(n, p)。 私は標準誤差を計算することができ、の分散の形から BINOMIL(N、P):σ2X=NのP、Q、Q=1-P。だから、σX=√SEX=σXn√SEX=σXnSE_X = \frac{\sigma_X}{\sqrt{n}}Binomial(n,p)Binomial(n,p){\rm Binomial}(n, p)σ2X=npqσX2=npq \sigma^{2}_{X} = npqq=1−pq=1−pq = 1-p。標準エラーの場合、SEX= √が得られますσX=npq−−−√σX=npq\sigma_X=\sqrt{npq}、しかしどこかでSEX= √を見たSEX=pq−−√SEX=pqSE_X=\sqrt{pq}。私は何を間違えましたか?SEX=pqn−−√SEX=pqnSE_X = \sqrt{\frac{pq}{n}}

1
分位点回帰:どの標準エラーですか?
quantreg vignetteのsummary.rq関数は、分位点回帰係数の標準誤差推定のための多数の選択肢を提供します。これらのそれぞれが最適/望ましいものになる特別なシナリオは何ですか? Koenker(1994)で説明されているようにランクテストを反転することにより、推定パラメーターの信頼区間を生成する「ランク」。デフォルトのオプションは、エラーがiidであると想定していますが、オプションiid = FALSEはKoenker Machado(1999)の提案を実装しています。追加の引数については、rq.fit.brのドキュメントを参照してください。 エラーがiidであると想定し、KB(1978)のように漸近共分散行列の推定値を計算する「iid」。 条件付き分位関数のローカル(タウ)線形性(x)を推定し、スパース性のローカル推定を使用してフーバーサンドイッチ推定を計算する「nid」。 Poker(1990)によって提案されたサンドイッチのカーネル推定値を使用する「ker」。 標準エラーを推定するためのいくつかの可能なブートストラップの選択肢の1つを実装する「ブート」。 私はこれが時系列または断面の次元のいずれかに適用される少なくとも20の経験的論文を読みましたが、標準誤差の選択については言及していません。

3
残留標準誤差とは何ですか?
Rで重回帰モデルを実行する場合、出力の1つは自由度95,161で0.0589の残留標準誤差です。95,161の自由度は、サンプルの観測数とモデルの変数の数の差によって与えられることを知っています。残留標準誤差とは何ですか?

4
Rの標準エラークラスタリング(手動またはplmのいずれか)
標準エラーの「クラスタリング」とRでの実行方法を理解しようとしています(Stataでは簡単です)。RIでは、どちらplmかを使用するか、独自の関数を作成することに失敗しました。パッケージのdiamondsデータを使用しggplot2ます。 いずれかのダミー変数で固定効果を実行できます > library(plyr) > library(ggplot2) > library(lmtest) > library(sandwich) > # with dummies to create fixed effects > fe.lsdv <- lm(price ~ carat + factor(cut) + 0, data = diamonds) > ct.lsdv <- coeftest(fe.lsdv, vcov. = vcovHC) > ct.lsdv t test of coefficients: Estimate Std. Error t value Pr(>|t|) …

3
ブートストラップ分布の平均を報告してみませんか?
パラメータをブートストラップして標準エラーを取得すると、パラメータの分布が得られます。取得しようとしているパラメーターの結果または推定値として、その分布の平均を使用しないのはなぜですか?分布は実際の分布に近似すべきではありませんか?したがって、「実際の」値の適切な推定値を取得できますか?それでも、サンプルから取得した元のパラメーターを報告します。何故ですか? ありがとう

5
機械学習で階層/ネストされたデータを処理する方法
例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

3
R:データセットにNaNがないにもかかわらず、「Forest function call」エラーでNaN / Infをスローするランダムフォレスト[非公開]
キャレットを使用して、データセットに対してクロス検証されたランダムフォレストを実行しています。Y変数は要因です。データセットにNaN、Inf、またはNAはありません。ただし、ランダムフォレストを実行すると、 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …


3
NPS(ネットプロモータースコア)結果の誤差を計算するにはどうすればよいですか?
ウィキペディアにNPSの計算方法を説明します。 ネットプロモータースコアは、0〜10の評価尺度で顧客に1つの質問をすることで得られます。10は「非常に可能性が高い」、0は「まったくそうではない」です。友達ですか?」回答に基づいて、顧客は3つのグループ(プロモーター(9〜10の評価)、受動的(7〜8の評価)、および中傷者(0〜6の評価)のいずれかに分類されます。次に、中傷者の割合をプロモーターの割合から差し引いて、ネットプロモータースコア(NPS)を取得します。NPSは、-100程度の低さ(全員が批判者)、または+100程度の高さ(全員がプロモーター)です。 この調査は数年間定期的に実施されています。毎回数百の応答があります。結果のスコアは、時間の経過とともに20〜30ポイント変化しました。私は、もしあれば、どのスコアの動きが重要かを見極めようとしています。 それが単純に難しすぎると判明した場合、計算の基本の誤差を把握することに興味があります。各「バケツ」(プロモーター、パッシブ、ディトラクター)の許容誤差はどのくらいですか?スコアの平均を見るだけで、データを調査の実行ごとに1つの数値に減らした場合、誤差の範囲はどのくらいでしょうか?それは私をどこにでも連れて行くでしょうか? ここでのアイデアは役に立ちます。「NPSを使用しないでください」を除きます。その決定は、私の変化する能力の範囲外です!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.