タグ付けされた質問 「standard-error」

サンプルから計算された統計量のサンプリング分布の標準偏差を指します。統計のサンプリング元である母集団について信頼区間を形成したり仮説を検定したりする場合、標準誤差が必要になることがよくあります。

3
中央値の標準誤差
非正規分布の小さなサンプルの場合に中央値の標準誤差を測定したい場合、次の式は正しいですか(Pythonを使用しています)? sigma=np.std(data) n=len(data) sigma_median=1.253*sigma/np.sqrt(n)

3
なぜこの抜粋は、標準偏差の公平な推定は通常関係がないと言っているのですか?
私は標準偏差の偏りのない推定の計算について読んでいたと私が読んだソース (...)いくつかの重要な状況を除き、タスクは、有意性検定や信頼区間の使用などの標準手順、またはベイズ分析を使用することで必要性が回避されるため、統計の適用とはほとんど関係がありません。 たとえば、信頼区間で計算の一部として標準偏差を使用していないのではないかと、このステートメントの背後にある理由を解明できる人がいるかどうか疑問に思っていました。したがって、信頼区間はバイアス標準偏差の影響を受けませんか? 編集: これまでの回答に感謝しますが、それらの理由のいくつかに従っているのかどうか確信が持てないので、非常に簡単な例を追加します。ポイントは、ソースが正しい場合、私の結論から例に何か間違っているということです。p値が標準偏差にどのように依存しないかを誰かに指摘してもらいたいです。 研究者が、自分の都市でのテストの5年生の平均スコアが、76の全国平均と有意水準0.05で異なるかどうかをテストしたいとします。研究者は20人の学生のスコアをランダムにサンプリングしました。サンプルの平均は80.85で、サンプルの標準偏差は8.87でした。つまり、t =(80.85-76)/(8.87 / sqrt(20))= 2.44。次に、tテーブルを使用して、19 dfでの2.44の両側確率値が0.025であることを計算します。これは有意水準0.05を下回っているため、帰無仮説を棄却します。 したがって、この例では、サンプルの標準偏差をどのように推定したかに応じて、p値(およびおそらくあなたの結論)は変化しませんか?

2
カウントの標準誤差
まれな病気の季節ごとの事件のデータセットがあります。たとえば、春に180件、夏に90件、秋に45件、冬に210件あったとします。これらの数値に標準エラーを添付することが適切かどうかに苦労しています。研究目標は、将来再発する可能性のある疾患発生率の季節的パターンを探しているという意味で推測的です。したがって、合計に不確実性の尺度を付けることが可能であるべきであるように直感的に感じます。ただし、この場合、標準誤差をどのように計算するかはわかりません。なぜなら、平均や比率ではなく単純なカウントを扱っているからです。 最後に、答えは、データがケースの集団(発生したすべてのケース)を表すか、ランダムなサンプルを表すかによって異なりますか?間違っていなければ、推論がないため、母集団統計で標準エラーを提示することは一般的に意味がありません。

4
フォローアップ:混合ANOVA間ANOVAプロットでは、推定SEまたは実際のSEですか?
私は現在論文を書き終えており、昨日からこの質問につまずいたので、自分に同じ質問を投げかけることになりました。データからの実際の標準誤差または私のANOVAから推定された標準誤差をグラフに提供する方が良いでしょうか? 昨日からの質問はかなり具体的ではなく、私の質問はかなり具体的であるため、このフォローアップの質問を提示することが適切だと思いました。 詳細: 認知心理学の領域(条件付き推論)で実験を実行し、2つのグループ(帰納的および演 ductive的指示、つまり被験者間操作)を2つの被験者内操作(問題のタイプと問題の内容、それぞれ2つの因子レベル)。 結果は次のようになります(ANOVA出力からのSE推定値の左パネル、データから推定されたSEの右パネル): 異なる線は2つの異なるグループ(つまり、被験者間操作)と、被験者の操作はx軸(つまり、2x2因子レベル)にプロットされます。 本文では、ANOVAのそれぞれの結果と、中央の重要なクロスオーバー相互作用の計画的な比較を提供します。SEは、データの変動性に関するヒントを読者に提供するためにあります。SDをプロットすることは一般的ではなく、被験者内および被験者間CIを比較する際に深刻な問題があるため、標準偏差および信頼区間よりもSEの方が好きです(同じことがSEにも当てはまるため、有意差を誤って推測することはそれほど一般的ではありません)それらから)。 私の質問を繰り返します:ANOVAから推定されたSEをプロットする方が良いのですか、それとも生データから推定されたSEをプロットすべきですか? 更新: 推定SEが何であるかをもう少し明確にすべきだと思います。SPSSのANOVA出力はestimated marginal means、対応するSEとCIを提供します。これが左のグラフにプロットされています。これを理解している限り、それらは残差のSDである必要があります。ただし、残差を保存する場合、SDは推定SEに多少なりとも近くありません。したがって、2番目の(潜在的にSPSS固有の)質問は次のとおり です。これらのSEとは何ですか? 更新2:最終的に気に入ったのでプロットを作成できるR関数を作成することができました(受け入れられた回答を参照)。誰かに時間があれば、あなたがそれを見ることができれば本当に感謝します。ここにあります。

4
「残留標準誤差」と言うのはなぜですか?
標準誤差は、推定された標準偏差であるσ(θ)推定器のθパラメータのためのθ。σ^(θ^)σ^(θ^)\hat \sigma(\hat\theta)θ^θ^\hat\thetaθθ\theta なぜ残差の推定標準偏差は「残差標準誤差」と呼ばれ(例えば、Rのsummary.lm関数の出力)、「残差標準偏差」ではないのですか?ここで、どのパラメータ推定値に標準誤差を装備しますか? 各残差を「その」誤差項の推定量と見なし、これらすべての推定量の「プールされた」標準誤差を推定しますか?

1
切片の標準誤差は、が0からさらに増加するのはなぜですか?
切片用語の標準誤差()においてによって与えられる ここで\バー{X}はありますx_iの平均。、Y=β1X+β0+εSE( β 0)2=σ2[1β^0β^0\hat{\beta}_0y=β1x+β0+εy=β1x+β0+εy=\beta_1x+\beta_0+\varepsilonˉXXISE(β^0)2=σ2[1n+x¯2∑ni=1(xi−x¯)2]SE(β^0)2=σ2[1n+x¯2∑i=1n(xi−x¯)2]SE(\hat{\beta}_0)^2 = \sigma^2\left[\frac{1}{n}+\frac{\bar{x}^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right]x¯x¯\bar{x}xixix_i 私が理解したことから、SEは不確実性を定量化します。たとえば、サンプルの95%で、区間[β^0−2SE,β^0+2SE][β^0−2SE,β^0+2SE][\hat{\beta}_0-2SE,\hat{\beta}_0+2SE]には真の\ beta_0が含まれます。β0β0\beta_0。SE(不確実性の尺度)が\ bar {x}とともにどのように増加するかを理解できませんx¯x¯\bar{x}。x¯=0x¯=0\bar{x}=0になるようにデータを単純にシフトすると、不確実性は下がりますか?それは不合理なようです。 類似の解釈は-データの非中心バージョンでは、β^0β^0\hat{\beta}_0はx=0x=0x=0での予測に対応し、中心データでは、β^0β^0\hat{\beta}_0はx = \での予測に対応しますbar {x}x=x¯x=x¯x=\bar{x}。したがって、これはx=0x=0x=0での予測に関する不確実性がx = \ bar {x}での予測に関する不確実性よりも大きいことを意味しx=x¯x=x¯x=\bar{x}ますか?それも理にかなっていないようで、エラーϵϵ\epsilonはxのすべての値に対して同じ分散を持っているxxxので、私の予測値の不確実性はすべてのxに対して同じでなければなりませんxxx。 私の理解にはギャップがあると思います。誰かが私が何が起こっているのか理解するのを手伝ってもらえますか?

1
RのlmオブジェクトなしでNewey-West標準誤差を計算します
昨日、StackOverflowでこの質問をして回答を得ましたが、少しハックが多いようで、より良い見方があるかもしれません。 質問:ベクトル(この場合は株式の返品のベクトル)のNewey-West(HAC)標準誤差を計算したいと思います。パッケージNeweyWest()内の関数sandwichはこれを行いますがlm、入力としてオブジェクトを受け取ります。Joris Meysが提供する解決策は、ベクトルを1に射影することNeweyWest()です。これにより、私のベクトルが残差に変換され、に供給されます。あれは: as.numeric(NeweyWest(lm(rnorm(100) ~ 1))) 平均の分散。 私はこのようにするべきですか?または、私が望むことをより直接行う方法はありますか?ありがとう!

3
相互作用効果を得るために係数を追加する-SEで何をすべきか?
相互作用を含む多変量回帰があります。たとえば、最貧五分位の治療効果の推定値を取得するには、治療回帰変数の係数を相互作用変数(治療と五分位1と相互作用する)の係数に追加する必要があります。回帰から2つの係数を追加するとき、どのように標準誤差を取得しますか?2つの係数から標準誤差を追加することは可能ですか?t-statsはどうですか?これらも追加することは可能ですか?私は推測していませんが、これに関するガイダンスを見つけることができません。 よろしくお願いします!

1
標準化されたベータを元の変数に戻す
これはおそらく非常に単純な質問だと思いますが、検索した後、探している答えが見つかりません。 ベータのリッジ推定値を計算するために変数を標準化する必要がある(リッジ回帰)必要があるという問題があります。 次に、これらを元の変数スケールに戻す必要があります。 しかし、どうすればよいですか? 私は二変量のケースの式を見つけました β∗=β^SxSy.β∗=β^SxSy. \beta^* = \hat\beta \frac{S_x}{S_y} \>. これは、D。グジャラート語、Basic Econometrics、175ページ、式(6.3.8)で与えられました。 ここで、は標準化された変数で実行された回帰からの推定量であり、は同じ推定量を元のスケールに変換して戻し、はの標本標準偏差、は標本標準偏差です。* β S 、Y S 、Xβ∗β∗\beta^*β^β^\hat\betaSySyS_ySxSxS_x 残念ながら、この本では、重回帰の類似の結果については説明していません。 また、私は二変量のケースを理解しているのかわかりませんか?単純な代数操作により、元のスケールでの式が得られます。β^β^\hat\beta β^=β∗SySxβ^=β∗SySx \hat\beta=\beta^* \frac{S_y}{S_x} 既にによってデフレートされている変数で計算されたが、再度変換するためにによってデフレートするますか?(さらに、平均値が追加されないのはなぜですか?) SXSXβ^β^\hat\betaSxSxS_xSxSxS_x では、結果を理解できるように、多変量のケースでこれをどのように導関数を使用して理想的に説明することができますか?

5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
モンテカルロシミュレーション推定の精度を見つける
バックグラウンド 私は一連のモデルの出力を組み合わせたモンテカルロシミュレーションを設計しています。シミュレーションにより、シミュレーション結果の確率とその確率推定の精度について合理的な主張ができることを確認したいと思います。 シミュレーションは、特定のコミュニティから選ばれたju審員が特定の被告に有罪判決を下す可能性を見つけます。シミュレーションの手順は次のとおりです。 既存のデータを使用して、人口統計的予測因子で「審査員第一投票」を回帰することにより、ロジスティック確率モデル(M)を生成します。 モンテカルロ法を使用して、Mの 1,000バージョン(つまり、モデルパラメーターの係数の1000バージョン)をシミュレートします。 モデルの1,000バージョン(M i)のいずれかを選択します。 特定の人口統計学的特性分布を持つ個人の「コミュニティ」(C)から12の「ju審員」の1,000セットをランダムに選択することにより、1,000人の審査員を審査します。 M iを使用して、各審査員の最初の投票有罪投票の確率を決定論的に計算します。 各「ju審員」の可能性のある票を、(0-1の間でランダムに選択された値よりも大きいか小さいかに基づいて)確定票にレンダリングします。 最初の投票で有罪判決を下すju審員の割合を条件に、ju審が有罪となる確率のモデル(経験的データから導出)を使用して、各「 "審員」「最終投票」を決定します。 1000人のju審員に対する有罪判決の割合(PG i)を保存します。 Mの 1,000のシミュレートされたバージョンのそれぞれについて、手順3〜8を繰り返します。 PGの平均値を計算し、それをCでの確信の確率のポイント推定値として報告し ます。 PGの2.5および97.5パーセンタイル値を特定し、0.95信頼区間として報告します。 現在、確率分布(Cの人口統計学的特性またはMのバージョン)から1,000のランダム抽選がその分布を埋めるという理論で、1,000人のju審員と1,000人のju審員を使用しています。 ご質問 これにより、見積もりの​​精度を正確に判断できますか?もしそうなら、Cの確率分布をカバーするために、各PG i計算に何人の審査員を入れる必要があります(したがって、選択バイアスを回避します)。1,000未満しか使用できませんか? 助けてくれてありがとう!

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
標準誤差を導出するための一般的な方法
標準エラーを導出する一般的な方法をどこにも見つけられないようです。私はグーグル、このウェブサイト、そして教科書でさえ調べましたが、私が見つけることができるのは、平均、分散、比率、リスク比などの標準誤差の式であり、これらの式に到達した方法ではありません。 簡単な言葉でそれを説明したり、私にそれを説明する優れたリソースにリンクしたりすることができれば、感謝します。

2
エラー伝播SD対SE
私は、2つの異なる条件(AとB)で、1人あたり3〜5個の特性を測定しています。 各条件の各個人の平均をプロットしており、標準誤差(つまり、、 =測定数)を誤差範囲として使用しています。 NSD / N−−√SD/NSD/\sqrt{N}NNN ここで、条件Aと条件Bの個人ごとの平均測定値の差をプロットしたいと思います。次のようにして伝搬エラーを特定できることがわかります。 SD = SD2あ+ SD2B−−−−−−−−−−√SD=SDA2+SDB2SD=\sqrt{SD_A^2+SD_B^2} しかし、標準偏差の代わりに標準誤差を伝搬するにはどうすればよいですか(測定の平均を扱っているため)。これはまったく意味がありますか?

1
標準エラー(SE)を使用しない代替ファンネルプロット
メタ分析を提出する前に、ファネルプロットを作成して、異質性とパブリケーションのバイアスをテストします。-1から+1までの値を取る、プールされた効果サイズと各研究からの効果サイズがあります。各研究の患者とコントロールのサンプルサイズn1、n2があります。標準誤差(SE)を計算できないため、エッガーの回帰を実行できません。縦軸にSEまたはprecision = 1 / SEを使用できません。 ご質問 横軸の効果サイズと縦軸の合計サンプルサイズn(n = n1 + n2)を使用してファンネルプロットを作成できますか? そのようなファンネルプロットはどのように解釈されるべきですか? いくつかの公開された論文は、縦軸に合計サンプルサイズを指定したこのようなファンネルプロットを示しました(公開されたPMID:10990474、10456970)。また、ウィキペディアのファンネルプロットwikiもこれに同意しています。しかし、最も重要なのは、BMJ 1999に関するMathhias Eggerの論文(PubMed PMID:9451274)がそのようなファンネルプロットを示しており、SEがなく、縦軸にサンプルサイズしかないことです。 さらに質問を 標準誤差が不明な場合、そのようなプロットは受け入れられますか? 垂直軸索にSEまたはpresicion = 1 / SEを設定した従来のファンネルプロットと同じですか? その解釈は異なりますか? 正三角形を作成するには、どのように線を設定すればよいですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.