タグ付けされた質問 「standard-error」

サンプルから計算された統計量のサンプリング分布の標準偏差を指します。統計のサンプリング元である母集団について信頼区間を形成したり仮説を検定したりする場合、標準誤差が必要になることがよくあります。

3
二乗平均平方根誤差(RMSE)と標準偏差の解釈方法
予測値を提供するモデルがあるとしましょう。これらの値のRMSEを計算します。そして、実際の値の標準偏差。 これらの2つの値(分散)を比較するのは意味がありますか?私が思うに、RMSEと標準偏差が類似/同じであれば、私のモデルの誤差/分散は実際に起こっていることと同じです。しかし、これらの値を比較しても意味がない場合、この結論は間違っている可能性があります。私の考えが本当なら、それはモデルがそれが分散を引き起こしているものを帰することができないので、それができる限り良いことを意味しますか?最後の部分はおそらく間違っているか、少なくとも答えるにはさらに情報が必要だと思います。


1
限界効果の標準誤差にデルタ法を使用する方法は?
相互作用項を含む回帰モデルの平均限界効果の標準誤差を近似するためのデルタ法をよりよく理解することに興味があります。デルタ方式で関連する質問を見ましたが、探しているものをまったく提供していません。 動機付けの例として、次のサンプルデータを検討してください。 set.seed(1) x1 <- rnorm(100) x2 <- rbinom(100,1,.5) y <- x1 + x2 + x1*x2 + rnorm(100) m <- lm(y ~ x1*x2) との平均限界効果(AME)に興味がx1ありx2ます。これらを計算するには、単に次のことを行います。 cf <- summary(m)$coef me_x1 <- cf['x1',1] + cf['x1:x2',1]*x2 # MEs of x1 given x2 me_x2 <- cf['x2',1] + cf['x1:x2',1]*x1 # MEs of x2 given x1 mean(me_x1) …

2
線形回帰係数の標準誤差を導き出す方法
この単変量線形回帰モデル データセット場合、係数推定は ここで私の質問によれば、 bookおよびWikipedia、の標準エラーは 方法と理由 D = { (X 1、Y 1)、。。。、(X N、Y N)} β 1 = Σ I X I 、Y I - N ˉ X ˉ Yy私= β0+ β1バツ私+ ϵ私y私=β0+β1バツ私+ϵ私y_i = \beta_0 + \beta_1x_i+\epsilon_iD = { (x1、y1)、。。。、(xn、yn)}D={(バツ1、y1)、。。。、(バツn、yn)}D=\{(x_1,y_1),...,(x_n,y_n)\} β 0= ˉ Y - β 1 ˉ Xβ^1= ∑私バツ私y私− n x¯y¯n …

6
堅牢な(白)標準エラーを常に報告しますか?
AngristとPischkeは、Robust(すなわち、不均一分散または不均等な分散に対してロバスト)標準エラーは、テストではなく当然のこととして報告されていると示唆しています。2つの質問: 等分散性がある場合の標準エラーへの影響は何ですか? 誰かが実際に仕事でこれをしますか?

1
分析的なヤコビアンが利用可能な場合、ヘッセ行列をで近似するか、ヤコビアンの有限差分で近似する方が良いでしょうか?
いくつかのモデルパラメーターを計算して、残差の2乗和を最小化し、誤差がガウス分布であると仮定するとします。私のモデルは分析的な微分を生成するため、オプティマイザーは有限差分を使用する必要がありません。適合が完了したら、適合パラメーターの標準誤差を計算します。 一般に、この状況では、エラー関数のヘッシアンは次のように共分散行列に関連付けられます: ここで、は残差の分散です。σ 2σ2H−1=Cσ2H−1=C \sigma^2 H^{-1} = C σ2σ2\sigma^2 誤差の分析的微分が利用できない場合、ヘッシアンを計算することは通常非実用的であるため、が適切な近似として採用されます。JTJJTJJ^TJ ただし、私の場合、分析Jを持っているので、有限差分JでHを計算するのは比較的安価です。 したがって、私の質問は次のとおりです:正確なJを使用してHを近似し、上記の近似を適用するか、Jを有限差分Jで近似する方が正確ですか?

5
クロスオーバー(ペア)実験のエラーバーを表示する方法
次のシナリオは、調査担当者(I)、校閲者/編集者(R、CRANとは無関係)、およびプロット作成者としての私(M)のトリオで最もよくある質問になりました。(R)は、各プロットがエラーバーを持たなければならないことだけを知っている典型的な医療大ボスレビューアであると仮定できます。そうでなければ、それは間違っています。統計レビューアが関与している場合、問題はそれほど重大ではありません。 シナリオ 典型的な薬理学的クロスオーバー研究では、2つの薬物AとBがグルコースレベルへの影響についてテストされます。各患者は、キャリーオーバーがないという仮定の下で、ランダムな順序で2回テストされます。主要エンドポイントはグルコース(BA)の違いであり、対応のあるt検定が適切であると想定しています。 (I)両方の場合の絶対グルコースレベルを示すプロットが必要です。彼は(R)のエラーバーに対する欲求を恐れ、棒グラフの標準エラーを求めます。ここで棒グラフ戦争を始めないでください。 (I):それは真実ではない。バーは重なり、p = 0.03?それは私が高校で学んだことではありません。 (M):ここにはペアのデザインがあります。要求されたエラーバーは完全に無関係です。重要なのは、プロットに示されていないペアの差のSE / CIです。選択肢があり、データが多すぎない場合は、次のプロットを選択します 追加1:これは、いくつかの応答で言及された平行座標プロットです (M):線はペアリングを示し、ほとんどの線が上昇します。勾配が重要なので正しい印象です(わかりました、これはカテゴリですが、それでもなお)。 (I):その写真は紛らわしいです。誰もそれを理解しておらず、エラーバーもありません(Rは潜んでいます)。 (M):差の関連する信頼区間を示す別のプロットを追加することもできます。ゼロラインからの距離は、効果の大きさの印象を与えます。 (I):誰もやらない (R):そして貴重な木を無駄にします (M):(良いドイツ人として):はい、木の上のポイントが取られます。ただし、複数の治療法と複数のコントラストがある場合は、これを使用します(公開することはありません)。 提案はありますか?プロットを作成する場合、Rコードは以下のとおりです。 # Graphics for Crossover experiments library(ggplot2) library(plyr) theme_set(theme_bw()+theme(panel.margin=grid::unit(0,"lines"))) n = 20 effect = 5 set.seed(4711) glu0 = rnorm(n,120,30) glu1 = glu0 + rnorm(n,effect,7) dt = data.frame(patient = rep(paste0("P",10:(9+n))), treatment = rep(c("A","B"), each=n),glucose …

3
ロジスティック回帰の係数の標準誤差を計算する方法
Pythonのscikit-learnを使用して、ロジスティック回帰のトレーニングとテストを行っています。 scikit-learnは、独立変数の回帰係数を返しますが、係数の標準誤差は提供しません。各係数のWald統計を計算し、それらの係数を相互に比較するには、これらの標準誤差が必要です。 ロジスティック回帰の係数の標準誤差を計算する方法の1つの説明を見つけました(ここ)が、従うのはやや困難です。 これらの標準エラーを計算する方法の簡単な簡潔な説明を知っている場合、および/またはそれを私に提供できる場合は、本当に感謝しています!特定のコードを意味するわけではありませんが(役立つコードは自由に投稿してください)、むしろ手順のアルゴリズム的な説明です。

3
リッジ回帰を使用するときに係数標準誤差を推定するにはどうすればよいですか?
非常に多重共線性のデータでリッジ回帰を使用しています。OLSを使用すると、多重共線性のために係数に大きな標準誤差が生じます。私はリッジ回帰がこの問題に対処する方法であることを知っていますが、私が見たリッジ回帰のすべての実装では、係数について報告された標準エラーはありません。特定の係数の標準誤差がどれだけ減少するかを見ることで、リッジ回帰がどれだけ役立つかを推定する何らかの方法が欲しいです。リッジ回帰でそれらを推定する方法はありますか?

1
重回帰係数の標準誤差?
これは非常に基本的な質問であることを認識していますが、どこにも答えが見つかりません。 正規方程式またはQR分解を使用して回帰係数を計算しています。各係数の標準誤差を計算するにはどうすればよいですか?通常、標準エラーは次のように計算されると考えています。 SEx¯ =σx¯n√SEx¯ =σx¯nSE_\bar{x}\ = \frac{\sigma_{\bar x}}{\sqrt{n}} 各係数のとは何ですか?OLSのコンテキストでこれを計算する最も効率的な方法は何ですか?σx¯σx¯\sigma_{\bar x}

3
標準エラーはどのように機能しますか?
私は最近標準エラーの内部構造を調べていましたが、どのように機能するのか理解できないことがわかりました。標準誤差の私の理解は、それがサンプル平均の分布の標準偏差であるということです。私の質問は: •通常1つのサンプルのみを採取する場合、標準誤差がサンプル平均の標準偏差であることをどのように知ることができますか? •なぜ標準誤差を計算する方程式が、単一サンプルの標準偏差方程式を反映しないのですか?

3
なぜブートストラップが必要なのですか?
私は現在、Larry Wassermanの「統計のすべて」を読んでいて、ノンパラメトリックモデルの統計関数の推定に関する章で彼が書いたものに困惑しています。 彼が書きました 「いくつかの計算を行うことで、統計関数の推定標準誤差を見つけることができます。しかし、他の場合では、標準誤差を推定する方法が明らかではありません。」 次の章で彼はこの問題に対処するためのブートストラップについて語っていますが、この声明を本当に理解していないので、ブートストラップの背後にあるインセンティブを十分に得られませんか? 標準誤差を推定する方法が明らかでない場合、どのような例がありますか? thenように、これまで見てきたすべての例は「明白」^ S 、E(P N)= √X1,...Xn Ber(p)X1,...Xn Ber(p)X_1,...X_n ~Ber(p)se^(p^n)=p^⋅(1−p^)/n−−−−−−−−−−√se^(p^n)=p^⋅(1−p^)/n \hat{se}(\hat{p}_n )=\sqrt{\hat{p}\cdot(1-\hat{p})/n}

2
加重平均推定の標準誤差の計算
その仮定とそれぞれ描かれているIIDと、いくつかのディストリビューションからの独立した。厳密に正です。すべての観察しますが、は観察しません。むしろを観察します。この情報からを推定することに興味があります。明らかに、推定器 \ bar {x} = \ frac {\ sum_i w_i x_i} {\ sum_i w_i} は偏りがなく、手元にある情報を基に計算できます。w1,w2,…,wnw1,w2,…,wnw_1,w_2,\ldots,w_nw i x i w i w i x i ∑ i x i w ix1,x2,...,xnx1,x2,...,xnx_1,x_2,...,x_nwiwiw_ixixix_iwiwiw_iwiwiw_ixixix_i∑ixiwi∑ixiwi\sum_i x_i w_iE[x]E⁡[x]\operatorname{E}\left[x\right]x¯=∑iwixi∑iwix¯=∑iwixi∑iwi \bar{x} = \frac{\sum_i w_i x_i}{\sum_i w_i} この推定器の標準誤差をどのように計算できますか?xixix_iが値0と1のみをとるサブケースでは、 se≈x¯(1−x¯)∑iw2i−−−−−−−−−−−−√∑iwi,se≈x¯(1−x¯)∑iwi2∑iwi, se \approx \frac{\sqrt{\bar{x}(1-\bar{x})\sum_i w_i^2}}{\sum_i w_i}, 基本的に変動を無視してwiwiw_iが、これは250の周りよりも小さいサンプルサイズの不振ことがわかった(そして、これはおそらくの分散に依存wiwiw_i。)多分私がするのに十分な情報を持っていないようです「より良い」標準誤差を計算します。

2
「標準誤差」と「信頼区間」が測定の精度を測定する場合、精度の測定は何ですか?
40ページの「ダミーの生物統計」の本で私は読んだ: 標準誤差(SEと略記)は、推定値または測定値の精度を示す1つの方法です。 そして 信頼区間は、何かの推定または測定の精度を示す別の方法を提供します。 しかし、測定の正確さを示す方法は何も書かれていません。 質問:何かの測定がどれほど正確であるかを示す方法は?そのためにどの方法が使用されますか? テストの精度と精度と混同しないでください:https : //en.wikipedia.org/wiki/Accuracy_and_precision#In_binary_classification

2
ロジスティック回帰の信頼区間の計算
私は二項ロジスティック回帰分析を使用して、ユーザーが何かをクリックする可能性にさらされているhas_xか、has_y影響を与えているかどうかを特定しています。私のモデルは次のとおりです。 fit = glm(formula = has_clicked ~ has_x + has_y, data=df, family = binomial()) これは私のモデルからの出力: Call: glm(formula = has_clicked ~ has_x + has_y, family = binomial(), data = active_domains) Deviance Residuals: Min 1Q Median 3Q Max -0.9869 -0.9719 -0.9500 1.3979 1.4233 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.504737 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.