タグ付けされた質問 「residuals」

モデルの残差は、実際の値から予測値を引いたものです。多くの統計モデルは、残差によって推定されるエラーについての仮定を行います。


1
LASSOの前提
LASSO回帰シナリオで y= Xβ+ ϵy=Xβ+ϵy= X \beta + \epsilon、 LASSOの推定値は、次の最適化問題によって与えられます 分β| | y− Xβ| | +τ| | β| |1minβ||y−Xβ||+τ||β||1 \min_\beta ||y - X \beta|| + \tau||\beta||_1 \ epsilonに関する分布の仮定はありϵϵ\epsilonますか? OLSシナリオでは、ϵϵ\epsilonは独立しており、正規分布していると予想されます。 LASSO回帰で残差を分析することは意味がありますか? LASSO推定値は、\ beta_jの独立した二重指数事前分布の下で事後モードとして取得できることを知っていますβjβj\beta_j。しかし、標準の「仮定検査フェーズ」は見つかりませんでした。 前もって感謝します (:

1
適切な相関構造を持つモデルにも自己相関残差パターンが残っていますか?また、最適なモデルを選択する方法はありますか?
環境 この質問ではRを使用していますが、一般的な統計の問題に関するものです。 私は、幼虫の個体数を年に1回、8年間にわたって12箇所からサンプリングした、ガの個体数の成長率に対する死亡率(病気と寄生による死亡率)の影響を分析しています。人口増加率データは、時間の経過とともに明確だが不規則な周期的傾向を示しています。 単純な一般化線形モデルからの残差(成長率〜%disease +%parasitism + year)は、同様に明確ではあるが不規則な周期的傾向を経時的に示しました。したがって、同じ形式の一般化最小二乗モデルも、複合対称性、自己回帰プロセス次数1、自己回帰移動平均相関構造などの時間的自己相関に対処するために、適切な相関構造でデータに適合しました。 モデルはすべて同じ固定効果を含み、AICを使用して比較され、REMLによって適合されました(AICによる異なる相関構造の比較を可能にするため)。Rパッケージnlmeとgls関数を使用しています。 質問1 GLSモデルの残差は、時間に対してプロットしたときに、ほぼ同じ周期的なパターンを表示します。自己相関構造を正確に説明するモデルであっても、そのようなパターンは常に残りますか? 2番目の質問の下で、Rのいくつかの単純化された類似のデータをシミュレートしました。これは、モデル残差の時間的に自己相関するパターンを評価するために必要なメソッドの現在の理解に基づいて問題を示していますが、これは間違っていることがわかっています(回答を参照)。 質問2 考えられるすべての相関構造を持つGLSモデルをデータに適合させましたが、実際には相関構造のないGLMよりも実質的に良好な適合はありません:1つのGLSモデルだけがわずかに優れています(AICスコア= 1.8低い)より高いAIC値。ただし、これはすべてのモデルがGLSモデルが明らかにはるかに優れているMLではなくREMLによって適合されている場合にのみ当てはまりますが、統計書から、REMLを使用して異なる相関構造と同じ固定効果を持つモデルを比較する必要があることを理解していますここでは詳しく説明しません。 明らかに時間的に自己相関するデータの性質を考えると、単純なGLMよりも適度に優れたモデルがない場合、適切な方法を使用していると仮定して、推論に使用するモデルを決定する最も適切な方法は何ですか(最終的に使用したい異なる変数の組み合わせを比較するAIC)? 適切な相関構造を持つモデルと持たないモデルの残差パターンを調査するQ1「シミュレーション」 「時間」の周期的効果と「x」の正の線形効果を持つシミュレートされた応答変数を生成します。 time <- 1:50 x <- sample(rep(1:25,each=2),50) y <- rnorm(50,5,5) + (5 + 15*sin(2*pi*time/25)) + (x/1) yは、ランダムな変動を伴う「時間」にわたって周期的な傾向を表示する必要があります。 plot(time,y) そして、ランダムな変動を伴う「x」との正の線形関係: plot(x,y) 「y〜時間+ x」の単純な線形加法モデルを作成します。 require(nlme) m1 <- gls(y ~ time + x, method="REML") モデルは、予想されるように、「時間」に対してプロットされると、残差に明確な周期的パターンを表示します。 plot(time, m1$residuals) …

4
線形回帰での残差の分布の確認
単純な線形回帰、残差を保存し、残差の分布のヒストグラムを描くと仮定します。おなじみの分布のようなものが得られた場合、エラー項にこの分布があると仮定できますか?たとえば、残差が正規分布に似ていることがわかった場合、母集団の誤差項の正規性を仮定するのは理にかなっていますか?私はそれが賢明だと思いますが、どのようにそれを正当化できますか?^ U Iy=β0+β1x+uy=β0+β1x+uy=\beta_0+\beta_1x+uui^ui^\hat{u_i}

1
ロジスティック回帰におけるピアソンVS逸脱残差
標準化されたPearson Residualsは、従来の確率論的な方法で取得されることを知っています。 r私= y私- π私π私(1 - π私)−−−−−−−−√r私=y私−π私π私(1−π私) r_i = \frac{y_i-\pi_i}{\sqrt{\pi_i(1-\pi_i)}} および逸脱残差は、より統計的な方法(各ポイントの尤度への寄与)によって取得されます。 d私= s私− 2 [ y私ログπ私^+ (1 − y私)ログ(1 - π私)]−−−−−−−−−−−−−−−−−−−−−−−−−−√d私=s私−2[y私ログ⁡π私^+(1−y私)ログ⁡(1−π私)] d_i = s_i \sqrt{-2[y_i \log \hat{\pi_i} + (1 - y_i)\log(1-\pi_i)]} ここで、 = 1の場合 = 1及び = -1であれば = 0。s私s私s_iy私y私y_is私s私s_iy私y私y_i 逸脱残差の式をどのように解釈するか、直感的に説明できますか? さらに、1つを選択したい場合、どちらがより適切で、なぜですか。 ところで、いくつかの参考文献は、用語に基づいて逸脱残差を導出すると主張しています − 12r私2−12r私2-\frac{1}{2}{r_i}^2 ここで、は上記のとおりです。r私r私r_i

2
ピアソンの残差
適合度のカイ2乗検定のコンテキスト内でのピアソンの残差に関する初心者の質問: 検定統計量と同様に、Rのchisq.test関数はピアソンの残差を報告します。 (obs - exp) / sqrt(exp) サンプルが小さいほど差が小さくなるため、観測値と期待値の間の生の差を見ることがそれほど有益ではない理由を理解しています。しかし、分母の効果についてもっと知りたいです。なぜ期待値のルートで除算するのですか?これは「標準化された」残差ですか?

3
残差のサイズによってデータセットを階層化し、2サンプルの比較を行うことはまったく防御可能ですか?
これは一種のアドホックな方法として行われていると見られており、私には非常に怪しいように見えますが、おそらく何かが欠けています。私はこれを多重回帰で見ましたが、単純にしておきましょう: yi=β0+β1xi+εiyi=β0+β1xi+εi y_{i} = \beta_{0} + \beta_{1} x_{i} + \varepsilon_{i} 次に、近似モデルから残差を取得します ei=yi−(β^0+β^1xi)ei=yi−(β^0+β^1xi) e_{i} = y_{i} - \left( \hat{\beta}_{0} + \hat{\beta}_{1} x_{i} \right) 残差のサイズに基づいてサンプルを階層化します。たとえば、最初のサンプルが残差の下部90%であり、2番目のサンプルが上部10%である場合、2つのサンプル比較を実行します-これはモデルの予測子で行われ、モデルにない変数。使用される非公式のロジックは、おそらく、モデルの下で予想される値をはるかに超える値を持つポイント(つまり、大きな残差)が何らかの方法で異なり、その違いがこの方法で調査されることです。xxx このテーマに関する私の考えは次のとおりです。 モデルの予測変数に2サンプルの差がある場合、現在の状態ではモデルによって考慮されていない予測変数の効果(つまり、非線形効果)があります。 モデルにない変数に2サンプルの差がある場合は、最初にモデルにあるはずです。 私は(シミュレーションで)経験的に発見したことの一つは、モデルで予測値の平均値を比較している場合、つまりし、2つのサンプル手段を生成するために、このように階層化、¯ X 1及び¯ X 2、それらは互いに正の相関。両方のサンプルが依存するので、これは理にかなって¯のY、¯ X、σ X、σ Y及びρ X 、Yxxxx¯¯¯1x¯1\overline{x}_{1}x¯¯¯2x¯2\overline{x}_{2}y¯¯¯,x¯¯¯,σ^x,σ^yy¯,x¯,σ^x,σ^y\overline{y}, \overline{x}, \hat{\sigma}_{x}, \hat{\sigma}_{y}ρ^xyρ^xy\hat{\rho}_{xy}。その相関は、カットオフを下げると増加します(つまり、サンプルの分割に使用する%)。したがって、少なくとも、2サンプルの比較を行う場合、統計の分母の標準誤差を調整して、相関を考慮に入れる必要があります(ただし、共分散)。ttt とにかく、私の基本的な質問は次のとおりです。これを行う理由はありますか?もしそうなら、これはどのような状況でこれを行うのに役立つでしょうか?明らかに私は存在するとは思わないが、正しい方法で考えていないことがあるかもしれない。

2
GLMの正規化変換の導出
\newcommand{\E}{\mathbb{E}}どのようにA (⋅ )= ∫ D UV 1 / 3(μ )A(⋅)=∫duV1/3(μ)A(\cdot) = \displaystyle\int\frac{du}{V^{1/3}(\mu)}正規化指数家族のための変換派生した? より具体的には、3ページのスライド1のテイラー展開スケッチを追おうとしましたが、いくつか質問があります。バツXX指数ファミリー、形質転換からh (X )h(X)h(X)、およびκ Iκi\kappa _i示す私はトンの時間ithi^{th}キュムラント、スライドは、と主張している: κ 3(H (ˉ X))≈ H '(μ )3 κ 3(ˉ X)N 2 +3H'(μ)2H"(μ)σ4N +O(N−3)、κ3(h(X¯))≈h′(μ)3κ3(X¯)N2+3h′(μ)2h′′(μ)σ4N+O(N−3), \kappa _3(h(\bar{X})) \approx h'(\mu)^3\frac{\kappa _3(\bar{X})}{N^2} + 3h'(\mu)^2h''(\mu)\frac{\sigma^4}{N} + O(N^{-3}), および上記の評価が0になるようなh(X)を見つけるだけh (X )h(X)h(X)です。 私の最初の質問は算数についてです。私のテイラー展開には異なる係数があり、それらが多くの項を落としたことを正当化することはできません。 h (x )以来 ≈ H (μ )+ …

3
異分散データの分散の予測
私は、誤差分散と線形モデルの観点からの平均値を予測しようとする異分散データの回帰を試みています。このようなもの: y(x,t)ξ(x,t)y¯(x,t)σ(x,t)=y¯(x,t)+ξ(x,t),∼N(0,σ(x,t)),=y0+ax+bt,=σ0+cx+dt.y(x,t)=y¯(x,t)+ξ(x,t),ξ(x,t)∼N(0,σ(x,t)),y¯(x,t)=y0+ax+bt,σ(x,t)=σ0+cx+dt.\begin{align}\\ y\left(x,t\right) &= \bar{y}\left(x,t\right)+\xi\left(x,t\right),\\ \xi\left(x,t\right) &\sim N\left(0,\sigma\left(x,t\right)\right),\\ \bar{y}\left(x,t\right) &= y_{0}+ax+bt,\\ \sigma\left(x,t\right) &= \sigma_{0}+cx+dt. \end{align} 言い換えると、データは、さまざまな値のxおよびtでのの反復測定で構成さy(x,t)y(x,t)y(x,t)れています。私は、これらの測定は、「真の」平均値から成ると仮定ˉ Y(X 、T )の線形関数であり、X及びT加法ガウス雑音で、ξ (X 、T )私は持っていない、その標準偏差(または分散また、x 、tに線形に依存します。(xにより複雑な依存関係を許可し、xxxttty¯(x,t)y¯(x,t)\bar{y}(x,t)xxxtttξ(x,t)ξ(x,t)\xi(x,t)x,tx,tx,txxxttt –線形形式の強力な理論的動機付けはありませんが、この段階で物事を複雑にしすぎないようにしたいです。) 私は「不均一」ここでは検索用語がある知っているが、すべては私がこれまでよりよく予測することがそれを削除/削減する方法の議論されている見つけることができましたy¯y¯\bar{y}、しかししようという点では何もすることが予測しない σσ\sigmaの観点から独立変数。私は推定したいと思いy0,a,b,σ0,cy0,a,b,σ0,cy_0, a, b, \sigma_0, c及びddd信頼区間(またはベイジアン当量)で、そしてとても良くSPSSでそれを行うための簡単な方法があるかどうか!私は何をすべきか?ありがとう。

1
lmerモデルに使用する多重比較方法:lsmeansまたはglht?
1つの固定効果(条件)と2つのランダム効果(被験者内のデザインとペアによる参加者)を含む混合効果モデルを使用して、データセットを分析しています。モデルはlme4パッケージで生成されました:exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp)。 次に、固定効果(条件)のないモデルに対してこのモデルの尤度比検定を実行しましたが、有意差があります。データセットには3つの条件があるため、多重比較を行いたいのですが、どの方法を使用すればよいかわかりません。CrossValidatedや他のフォーラムで同様の質問をいくつか見つけましたが、それでもかなり混乱しています。 私が見たものから、人々は使用することを提案しました 1.lsmeansパッケージ- lsmeans(exp.model,pairwise~condition)私に次のような出力が得られます。 condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts contrast estimate SE df t.ratio p.value Condition1 - Condition2 -0.04893538 0.03813262 62.07 -1.283 0.4099 Condition1 - …

4
RのARIMA残差のLjung-Box統計:混乱したテスト結果
予測しようとしている時系列があり、そのために季節のARIMA(0,0,0)(0,1,0)[12]モデル(= fit2)を使用しました。Rがauto.arimaで提案したものとは異なります(Rで計算されたARIMA(0,1,1)(0,1,0)[12]の方がより適切であるため、fit1と名付けました)。ただし、時系列の最後の12か月では、モデル(fit2)を調整するとよりよくフィットするようです(慢性的に偏っていたため、残差平均を追加し、新しいフィットは元の時系列の周囲によりぴったりと収まるようです)過去12か月の例と、両方の近似の最近12か月のMAPEは次のとおりです。 時系列は次のようになります。 ここまでは順調ですね。私は両方のモデルの残差分析を実行しましたが、これが混乱です。 acf(resid(fit1))は素晴らしく、非常にホワイトノイズが多い: ただし、Ljung-Boxテストは、たとえば20のラグに対しては見栄えがよくありません。 Box.test(resid(fit1),type="Ljung",lag=20,fitdf=1) 次の結果が得られます。 X-squared = 26.8511, df = 19, p-value = 0.1082 私の理解では、これは残差が独立していないことの確認です(p値が大きすぎて独立仮説を維持できない)。 ただし、ラグ1では、すべてが素晴らしいです。 Box.test(resid(fit1),type="Ljung",lag=1,fitdf=1) 私に結果を与えます: X-squared = 0.3512, df = 0, p-value < 2.2e-16 テストを理解していないか、またはacfプロットで見たものとわずかに矛盾しています。自己相関は非常に低いです。 次に、fit2をチェックしました。自己相関関数は次のようになります。 いくつかの最初のラグでのこのような明らかな自己相関にもかかわらず、Ljung-Boxテストでは、fit1よりも20ラグではるかに良い結果が得られました。 Box.test(resid(fit2),type="Ljung",lag=20,fitdf=0) 結果: X-squared = 147.4062, df = 20, p-value < 2.2e-16 一方、lag1で自己相関をチェックするだけで、帰無仮説の確認もできます。 Box.test(resid(arima2.fit),type="Ljung",lag=1,fitdf=0) X-squared = 30.8958, df …


4
「残留標準誤差」と言うのはなぜですか?
標準誤差は、推定された標準偏差であるσ(θ)推定器のθパラメータのためのθ。σ^(θ^)σ^(θ^)\hat \sigma(\hat\theta)θ^θ^\hat\thetaθθ\theta なぜ残差の推定標準偏差は「残差標準誤差」と呼ばれ(例えば、Rのsummary.lm関数の出力)、「残差標準偏差」ではないのですか?ここで、どのパラメータ推定値に標準誤差を装備しますか? 各残差を「その」誤差項の推定量と見なし、これらすべての推定量の「プールされた」標準誤差を推定しますか?

1
R:線形モデルの残差の正規性のテスト-使用する残差
線形モデルの残差に対してShapiro WilkのW検定とKolmogorov-Smirnov検定を実行して、正規性を確認したいと思います。私はこれにどの残差を使用すべきかと思っていました-生の残差、ピアソンの残差、スチューデント化された残差、または標準化された残差?Shapiro-WilkのW検定の場合、生およびピアソンの残差の結果は同一であるように見えますが、他の結果はそうではありません。 fit=lm(mpg ~ 1 + hp + wt, data=mtcars) res1=residuals(fit,type="response") res2=residuals(fit,type="pearson") res3=rstudent(fit) res4=rstandard(fit) shapiro.test(res1) # W = 0.9279, p-value = 0.03427 shapiro.test(res2) # W = 0.9279, p-value = 0.03427 shapiro.test(res3) # W = 0.9058, p-value = 0.008722 shapiro.test(res4) # W = 0.9205, p-value = 0.02143 KSについても同じ質問です。また、次のように残差を正規分布(pnorm)に対してテストする必要があるかどうか ks.test(res1, "pnorm") # …


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.