タグ付けされた質問 「standard-error」

サンプルから計算された統計量のサンプリング分布の標準偏差を指します。統計のサンプリング元である母集団について信頼区間を形成したり仮説を検定したりする場合、標準誤差が必要になることがよくあります。

3
特定のnに対して、比率の標準誤差が0.5で最大になるのはなぜですか?
比率の標準誤差は、問題の比率が0.5の場合に、指定されたNに対して最大になる可能性があり、比率が0.5から離れるほど小さくなります。比率の標準誤差の方程式を見ると、なぜそうなのかわかりますが、これについてはこれ以上説明できません。 式の数学的特性を超えた説明はありますか?もしそうなら、なぜそれらが0または1に近づくにつれ、(与えられたNの)推定比率の周りの不確実性が少なくなるのですか?

2
2.04標準エラーの意味?信頼区間が大幅に重複する場合の有意差はありますか?
以下の画像は、心理学のこの記事からのものです。同僚はそれについて2つの変わった点を指摘しました: キャプションによると、エラーバーには「±2.04標準エラー、95%信頼区間」と表示されます。95%のCIに±1.96 SEが使用されているのを見たことがあります。2.04SEが何らかの目的で使用されていることはわかりません。2.04 SEには受け入れられた意味がありますか? 計画されたペアワイズ比較は、エラー対正しい予測可能な試行(t(30)= 2.51、p <.01)およびエラー対正しい予測できない試行(t(30)= 2.61、p <.01)(オムニバスF検定もp <.05で有意でした)。ただし、グラフは3つの条件すべてのエラーバーが大幅に重なっていることを示しています。±2.04 SE間隔がオーバーラップする場合、値はp <.05でどのように大幅に異なる可能性がありますか?オーバーラップは十分に大きいので、±1.96 SE間隔もオーバーラップすると想定しています。

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
測定誤差に基づく事前分布の選択
機器の測定誤差がある場合、どのように適切な事前計算を行いますか?この段落は、Cressieの本「時空間データの統計」からのものです。 多くの場合、測定誤差の分散に関するいくつかの事前情報が利用可能であり、かなり有益なパラメータモデルを指定できます。我々は条件付き独立した測定誤差を想定している場合、例えば、IIDされる 、我々はのために有益前指定する必要があり。周囲の気温に関心があり、計器メーカーの仕様に±0.1℃の「誤差」が示されていることがわかりました。この「エラー」が2つの標準偏差(チェックする必要があるという仮定)に対応していると仮定すると、\ sigma _ {\ epsilon} ^ {2}を指定して、以前の平均が(0.1 / 2)^ 2 = 0.0025になるようにします。Gau(0,σ2ϵ)Gau(0,σϵ2)Gau(0, \sigma_{\epsilon}^2)σ2ϵσϵ2\sigma_{\epsilon}^2±0.1°C±0.1°C±0.1°Cσ2ϵσϵ2\sigma_{\epsilon}^{2}(0.1/2)2=0.0025(0.1/2)2=0.0025(0.1/2)^2 = 0.0025。機器メーカーの仕様により、0.0025に明確に定義されたかなり狭いピーク(たとえば、逆ガンマ)を持つ分布を想定します。実際、0.0025に修正するだけで済みます。ただし、データモデルエラーには、他にも不確実性の要素がある場合があります(セクション7.1)。プロセスモデルのエラーによる識別可能性の問題の可能性を回避するには、データを複製するように設計されたサイドスタディを行うことを含め、モデル作成者がサイエンスの許す限り不確実性を減らすことが非常に重要です。 上記のように事前の値を取得するための一般的な手順は何か知っていますか(段落では事前の平均を取得することのみを参照していますが)。

2
既知のブレークポイントを持つ区分的線形回帰における勾配の標準誤差
状況 1つの従属と1つの独立変数データセットがあります。発生する既知の/固定されたブレークポイントを使用して、連続的な区分線形回帰を近似したいと思います。ブレイクポインは不確実性なく知られているので、推定したくありません。次に、の形式の回帰(OLS)を これはX K (1、2、... 、K)Y I = β 0 + β 1 X I + β 2マックス(X I - 1、0 )+ β 3マックス(X I - 2、0 )+ ... + β K + 1つのマックス(Xyyyxxxkkk(a1,a2,…,ak)(a1,a2,…,ak)(a_{1}, a_{2}, \ldots, a_{k})yi=β0+β1xi+β2max(xi−a1,0)+β3max(xi−a2,0)+…+βk+1max(xi−ak,0)+ϵiyi=β0+β1xi+β2max⁡(xi−a1,0)+β3max⁡(xi−a2,0)+…+βk+1max⁡(xi−ak,0)+ϵi y_{i} = \beta_{0} + \beta_{1}x_{i} + \beta_{2}\operatorname{max}(x_{i}-a_{1},0) + \beta_{3}\operatorname{max}(x_{i}-a_{2},0) +\ldots+ \beta_{k+1}\operatorname{max}(x_{i}-a_{k},0) +\epsilon_{i} R …

2
MLEの変換の標準誤差をどのように計算しますか?
正のパラメーターについて推論する必要があります。肯定性を吸収するために、私はを再パラメーター化しました。MLEルーチンを使用して、ポイント推定と seを計算しました。MLEの不変性プロパティは、点推定を直接提供しますが、 seを計算する方法がわかりません。提案や参照については、事前に感謝します。pppp = exp(q)p=exp⁡(q)p=\exp(q)qqqpppppp

4
標準エラーは何に使用されますか?
私が見つけたチュートリアルを使用し、データを表示するために標準誤差と共に平均値をプロットしています。しかし、私は結果について議論することに問題を抱えています。私のプロットは以下のとおりです。標準エラーの一部(エラーバーとして表示)は大きく異なり、一部はゼロに非常に近いものです。

2
中央値の信頼区間
それぞれに少数の値(未満)のサンプルの分布があります。各サンプルの中央値を計算しました。モデルと比較して、モデルと各サンプルの中央値の差を求めます。一貫した結果を得るには、この違いについてエラーが必要です。101010 そのような場合に標準偏差を見つけることは、少なくとも私のようなプロではない人にとっては非常に困難になる可能性があります(たとえば、こちらを参照してください)。 公式リファレンスが引用されていなくても、中央値の信頼区間を計算する方法を説明するこのWebサイトを見つけました。 それは私には理にかなっているように見えますが、私は本当に判断することができないので、私は知りたいのです: それらの式は正しいですか? そのためのリファレンスはありますか? CIを検索したい場合はどうなりますか?95%95%95\% 前もって感謝します 編集:私はまた、非ガウスデータのブートストラップのこの例を見つけました。今、私はブートストラップについてはあまり知りませんが、その有効性についてのアドレスを持つことは良いことです。

2
自己相関がない可能性がありますが、HAC標準エラーの使用
私はいくつかのリグレッションを実行しており、安全を確保したいと思ったため、全体にわたってHAC(不均一分散と自己相関の一貫性)標準エラーを使用することにしました。シリアル相関が存在しないいくつかのケースがあるかもしれません。これはとにかく有効なアプローチですか?欠点はありますか?

2
中央値の信頼区間
一連の値があり、その中央値Mを計算します。この推定の誤差をどのように計算できるのか疑問に思いました。バツ私、i = 1 、… 、Nバツ私、私=1、…、N{x_i}, i=1, \dots ,N ネット上では、として計算できることがわかりましたここで、は標準偏差です。しかし、それについての言及は見つかりませんでした。なぜか分かりません。誰かに説明してもらえますか?1.2533 σN√1.2533σN1.2533\frac{\sigma}{\sqrt{N}}σσ\sigma ブートストラップを使用してエラーの見積もりを取得できると考えていましたが、分析が大幅に遅くなるため、回避したいと思います。 また、この方法で中央値の誤差を計算することを考えていました δM= ∑私(x私− M)2N− 1−−−−−−−−−−−√δM=Σ私(バツ私−M)2N−1\delta M = \sqrt{ \frac{\sum_i(x_i - M)^2}{N-1} } それは意味がありますか?

3
2つの標準化された平均差の差に対する効果サイズと標準誤差の計算
関連する質問が2つあります。どちらも、私が行っているメタ分析に関連しています。ここで、主要な結果は標準化された平均差で表されます。 私の研究には、標準化された平均差を計算するために使用できる複数の変数があります。1つの変数で計算された標準化された平均差が、他の変数の標準化された平均差とどの程度一致しているかを知りたいのですが。私の考えでは、この質問は、2組の標準化された平均差の違いに関するメタ分析として表現できます。ただし、同じ研究内の2つの標準化された平均差の差の効果サイズとサンプリング誤差を決定するのに問題があります。 別の方法で私の問題を表現するために、グループとと結果変数とた2条件の検討を考えてみ。これら2つの結果変数は、として相関しています。とにわたると標準化された平均差を計算して、、、およびそれらのサンプリング分散とます。以下の状況の非常に単純な図を含めました。g1g1g_1g2g2g_2v a r1var1var_1v a r2var2var_2c o r (v a r1、V Rを2)cor(var1,var2)cor(var_1, var_2)v a r1var1var_1v a r2var2var_2g1g1g_1g2g2g_2dv a r 1dvar1d_{var1}dv a r2dvar2d_{var_2}vdv a r1vdvar1v_{d_{var_1}}vdv a r2vdvar2v_{d_{var_2}} とをとして計算するとします。との標準化された平均差をとして計算できます。これにはサンプリング分散ます。 v a r 2 d i f f g 1 g 2 d d i f f v d d i f …

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

1
残差eは誤差の推定量ですか?
この質問は私が始めた別のスレッドで出てきたので、もっと多くの人々の意見を得たいと思いました。私の質問は 残差eは誤差の推定量ですか?εϵ\epsilon 私が尋ねる理由は次のとおりです。OLSでは、残差の分散は回帰の分散として知られています(RSSは残差の二乗和です)。同様に、この分散の平方根であるは、回帰の標準誤差です。分散の平方根が標準誤差であることを、この分散が推定量の分散であることを意味するはずです。私たちはすでにそれが残差の分散であることを知っています。したがって、残差は推定量ですか?(私はを想定しています) √RSS(n − K)RSS(n−K)\frac{\text{RSS}}{(n - K )} RSSRSS(n − K)−−−−−√RSS(n−K)\sqrt\frac{\text{RSS}}{(n - K )} ϵRSS(n − K)RSS(n−K)\frac{\text{RSS}}{(n - K )}εϵ\epsilon 考え?

2
デルタ法を使用した双曲線分布推定の標準誤差?
近似された双曲線分布の標準誤差を計算したい。 私の表記では、密度はH (l ; α 、β 、μ 、δ )で与えられ ます。 私は、次のコマンドを介してパラメータを推定R. IでHyperbolicDistrパッケージを使用しています。H(l;α,β,μ,δ)=α2−β2−−−−−−√2αδK1(δα2−β2−−−−−−√)exp(−αδ2+(l−μ)2−−−−−−−−−−√+β(l−μ))H(l;α,β,μ,δ)=α2−β22αδK1(δα2−β2)exp(−αδ2+(l−μ)2+β(l−μ))\begin{align*} H(l;\alpha,\beta,\mu,\delta)&=\frac{\sqrt{\alpha^2-\beta^2}}{2\alpha \delta K_1 (\delta\sqrt{\alpha^2-\beta^2})} exp\left(-\alpha\sqrt{\delta^2+(l-\mu)^2}+\beta(l-\mu)\right) \end{align*} hyperbFit(mydata,hessian=TRUE) これは私に間違ったパラメータ化を与えます。hyperbChangePars(from=1,to=2,c(mu,delta,pi,zeta))コマンドを使用して、目的のパラメーター化に変更します。次に、見積もりの​​標準誤差を取得したいのですが、summaryコマンドを使用して誤ったパラメーター化を行うと、誤差が発生します。しかし、これにより、他のパラメーター化の標準エラーが発生します。このスレッドによると、私はデルタ方式を使用する必要があります(私はしませんを使用する必要があります(ブートストラップや交差検証などを使用したく)。 hyperbFitコードがあるここに。そしてhyperbChangeParsはこちらです。したがって、私は知っています、そのとδμμ\muδδ\deltaは同じままです。したがって、標準誤差も同じですよね? とζをαとβに変換するには、両者の関係が必要です。コードによると、これは次のように行われます。ππ\piζζ\zetaαα\alphaββ\beta alpha <- zeta * sqrt(1 + hyperbPi^2) / delta beta <- zeta * hyperbPi / delta では、目的の標準エラーを取得するために、デルタ方式をどのようにコーディングする必要がありますか? 編集:私はこれらのデータを使用しています。まず、このスレッドに従ってデルタ方式を実行します。 # fit the distribution hyperbfitdb<-hyperbFit(mydata,hessian=TRUE) hyperbChangePars(from=1,to=2,hyperbfitdb$Theta) summary(hyperbfitdb) summary(hyperbfitdb) 次の出力が得られます。 Data: …

3
SPSSを使用した2x3混合設計ANOVAの事後テスト?
実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group(コントロール、実験)、time(最初、2、3)、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。 グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。 したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です! 記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。 インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。 どう思いますか?どちらが正しい方法でしょうか?
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.