タグ付けされた質問 「residuals」

モデルの残差は、実際の値から予測値を引いたものです。多くの統計モデルは、残差によって推定されるエラーについての仮定を行います。

3
平均二乗誤差と残差平方和
以下のウィキペディアの定義を見てください: 平均二乗誤差(MSE) 残差平方和(RSS) それは私に見える MSE=1NRSS=1N∑(fi−yi)2MSE=1NRSS=1N∑(fi−yi)2\text{MSE} = \frac{1}{N} \text{RSS} = \frac{1}{N} \sum (f_i -y_i)^2 ここで、はサンプル数、は推定値です。NNNfifif_iyiyiy_i ただし、ウィキペディアの記事のいずれもこの関係について言及していません。どうして?何か不足していますか?
31 residuals  mse 

2
生残差対標準化残差対スチューデント化残差-いつ使用するか
これは同様の質問のように見え、多くの回答を得られませんでした。 クックのDなどのテストを省略し、残差をグループとして見て、適合度を評価するときに他の人が残差を使用する方法に興味があります。生の残差を使用します: 正規性を評価するためのQQプロット 対残差の散布図で、(a)異分散性および(b)シリアル自己相関の眼球チェック用。yyy と残差をプロットして、外れ値が発生する可能性のあるの値を調べるには、スチューデント化された残差を使用することを好みます。私の好みの理由は、標準化された残差は非常に類似した結果を提供しますが、どの値でどの残差が問題であるかを簡単に表示できることです。どの理論が使用されているかは、どの大学に行ったかに依存するというものです。y yyyyyyyyyy これは、他の人が残差を使用する方法に似ていますか?他の人はこの数のグラフを要約統計と組み合わせて使用​​しますか?

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
生データまたは残差の正常性を確認する必要がありますか?
生データではなく、その残差で正規性をテストする必要があることを学びました。残差を計算してからShapiro–WilkのW検定を実行する必要がありますか? 残差はとして計算されますか?バツ私− 平均バツ私−平均X_i - \text{mean} 私のデータと設計については、この前の質問をご覧ください。


2
一般化線形(混合)モデル(特に残差)の診断
現在、困難なカウントデータ(従属変数)に適したモデルを見つけるのに苦労しています。lmerand などのさまざまな異なるモデル(混合効果モデルが私の種類のデータに必要です)lme4や、Gaussianや負の二項分布などのさまざまなファミリを持つ一般化線形混合効果モデルを試しました。 しかし、結果の適合をどのように正しく診断するかについてはかなり確信が持てません。Webでそのトピックについて多くの異なる意見を見つけました。線形(混合)回帰の診断は非常に簡単だと思います。先に進んで残差(正規性)を分析し、残差と比較した近似値をプロットすることで不均一分散性を調べることができます。 ただし、一般化バージョンではどのように適切に行うのですか?今のところ、負の二項(混合)回帰に注目しましょう。私はここで残差に関するまったく反対の声明を見ました: では一般化線形モデルにおける正規の残差チェック、それはプレーンな残差が正常にGLMために配布されていないことを最初の回答で指摘されているが、これは明らかだと思います。ただし、ピアソンおよび逸脱残差も正常であるとは想定されていないことが指摘されています。それでも、2番目の答えは、逸脱の残差を正規に分布する必要があることを示しています(参照と組み合わせて)。 ただし、逸脱残差を正規分布で分布させる必要があることは、?glm.diag.plots(Rのbootパッケージから)のドキュメントで示唆されています。 で、このブログの記事、著者は最初のNB混合効果回帰モデルのためのピアソン残差は、私が想定し何の正常性を研究しています。予想通り(私の意見では)、残差は正常であるとは示されず、著者はこのモデルが不適切であると仮定しました。ただし、コメントで述べたように、残差は負の二項分布に従って分布する必要があります。私の意見では、GLM残差は通常の分布とは異なる分布を持つ可能性があるため、これは真実に最も近くなります。これは正しいです?ここで異分散のようなものをチェックする方法は? 最後の点(推定分布の変位値に対する残差のプロット)は、Ben&Yohai(2004)で強調されています。現在、これは私のために行く方法のようです。 簡単に言うと、特に残差に焦点を当てて、一般化線形(混合)回帰モデルのモデル適合をどのように適切に研究しますか?

5
線形モデルの仮定と残差が正規分布していない場合の対処
私は、線形回帰の仮定が少し混乱しています。 これまでのところ、次のことを確認しました。 すべての説明変数は応答変数と線形に相関していました。(これが事実でした) 説明変数間に共線性がありました。(共線性はほとんどありませんでした)。 私のモデルのデータポイントのクックの距離は1未満です(これは、すべての距離が0.4未満であるため、影響ポイントがないためです)。 残差は正規分布します。(これはそうではないかもしれません) しかし、私は次を読みました: (a)従属変数および/または独立変数の分布自体が著しく非正規である、および/または(b)線形性の仮定に違反しているため、正規性の違反がしばしば発生します。 質問1 これにより、独立変数と従属変数を正規分布する必要があるかのように聞こえますが、私が知る限り、そうではありません。私の従属変数は、独立変数の1つと同様に正規分布していません。彼らはすべきですか? 質問2 残差のQQnormalプロットは次のようになります。 これは正規分布とわずかに異なりshapiro.test、残差が正規分布からのものであるという帰無仮説も棄却します。 > shapiro.test(residuals(lmresult)) W = 0.9171, p-value = 3.618e-06 残差と近似値は次のようになります。 残差が正規分布していない場合はどうすればよいですか?線形モデルはまったく役に立たないということですか?

2
なぜ残差の正規性は、回帰直線を推定するために「非常に重要」なのですか?
Gelman and Hill(2006)はp46に次のように書いています。 一般的に最も重要でない回帰の仮定は、エラーが正規分布しているということです。実際、(個々のデータポイントの予測と比較して)回帰直線を推定する目的では、正規性の仮定はほとんど重要ではありません。したがって、多くの回帰テキストとは対照的に、回帰残差の正常性の診断はお勧めしません。 ゲルマンとヒルはこの点についてこれ以上説明していないようです。 ゲルマンとヒルは正しいですか?その場合、次に: なぜ「まったく重要」なのですか?なぜ重要でもまったく無関係でもないのですか? 個々のデータポイントを予測するときに残差の正規性が重要なのはなぜですか? ゲルマン、A。、&ヒル、J。(2006)。回帰およびマルチレベル/階層モデルを使用したデータ分析。ケンブリッジ大学出版局

1
MCMCベースの回帰モデルの残留診断
最近、MCMCアルゴリズム(実際にはRの関数MCMCglmm)を使用して、ベイジアンフレームワークで回帰混合モデルの適合に着手しました。 推定プロセスの収束を診断する方法を理解したと思います(トレース、gewekeプロット、自己相関、事後分布...)。 ベイジアンフレームワークで私を襲ったことの1つは、それらの診断を行うために多くの努力が注がれているように思えるのに対し、近似モデルの残差のチェックに関してはほとんど行われていないように見えることです。たとえば、MCMCglmmでは、residual.mcmc()関数は存在しますが、実際にはまだ実装されていません(つまり、戻り値:「MCMCglmmオブジェクトにはまだ実装されていない残差」。predict.mcmc()にも同じ話があります)。他のパッケージにも欠けているようで、より一般的には、私が見つけた文献ではほとんど議論されていません(非常に頻繁に議論されているDICは別として)。 誰かが私にいくつかの便利なリファレンス、そして理想的には私が遊んだり修正したりできるRコードを教えてくれますか? どうもありがとう。

2
単純な線形回帰では、残差の分散の式はどこから来ますか?
私が使用しているテキストによると、残差の分散の式は次のようになります。ithithi^{th} σ2(1−1n−(xi−x¯¯¯)2Sxx)σ2(1−1n−(xi−x¯)2Sxx)\sigma^2\left ( 1-\frac{1}{n}-\frac{(x_{i}-\overline{x})^2}{S_{xx}} \right ) 残差は観測値と適合値の差であるため、これは信じがたいことです。差の分散を計算する場合、少なくとも、結果の式にいくつかの「プラス」が期待されます。派生を理解する上で助けていただければ幸いです。ithithi^{th}ithithi^{th}ithithi^{th}

2
ニューラルネットワークでボトルネックアーキテクチャはどのように機能しますか?
ボトルネックアーキテクチャは、[2つの3x3 convレイヤー]が[1x1 conv、1つの3x3 conv、および1x1 convレイヤー]に置き換えられたResNet論文で見つかったタイプとして定義されます。 1x1のconvレイヤーは、次元削減(および復元)の形式として使用されることを理解しています。これについては、別の投稿で説明しています。ただし、この構造が元のレイアウトと同じくらい効果的である理由についてはわかりません。 いくつかの良い説明が含まれる場合があります:どのストライド長が使用され、どのレイヤーで?各モジュールの入力および出力の寸法の例は何ですか?上記の図で56x56の機能マップはどのように表されますか?64-dはフィルターの数を指しますが、なぜこれが256-dフィルターと異なるのですか?各レイヤーで使用されるウェイトまたはフロップの数は? どんな議論も大歓迎です!

1
サンドイッチ推定器の直観
ウィキペディアとRサンドイッチパッケージビネットは、OLS係数の標準誤差をサポートする仮定とサンドイッチ推定量の数学的背景に関する優れた情報を提供します。おそらく、最初の段階で標準のOLS係数の分散推定を完全に理解していないためと思われますが、残差の不均一分散の問題にどのように対処するのかはまだわかりません。 サンドイッチ推定器の背後にある直感は何ですか?

2
残差プロット:プロット対フィット値で、観測された値ではないのはなぜですか?
OLS回帰のコンテキストでは、一定の分散をテストし、モデルの仕様を評価するために、従来、残差プロット(適合値に対する)が表示されることを理解しています。なぜ残差は値ではなくフィットに対してプロットされるのですか?情報はこれらの2つのプロットとどのように異なりますか?YYY 私は次の残差プロットを作成するモデルに取り組んでいます: そのため、プロットと近似値の関係は一見良好に見えますが、値に対する2番目のプロットにはパターンがあります。なぜこのような顕著なパターンが残差対適合プロットにも現れないのだろうか...YYY 私はモデルの問題を診断するのに助けを求めていませんが、(1)残差対適合プロット&(2)残差対プロットの違い(一般的に)を理解しようとしています。 YYY 価値があるのは、2番目のグラフのエラーパターンは、DVに影響する変数の省略によるものだと確信しています。現在、そのデータの取得に取り組んでおり、全体的な適合性と仕様の改善に役立つと期待しています。私は不動産データを扱っています:DV =販売価格。IV:1平方フィートの家、#ガレージスペース、1年建て、1年建て。 22^2


4
lme4(> 1.0)に適合した二項GLMMの適合を評価する方法は?
私は二項分布とロジットリンク関数を備えたGLMMを所有しており、データの重要な側面がモデルで十分に表現されていないように感じています。 これをテストするために、データがロジットスケールの線形関数で適切に記述されているかどうかを知りたいと思います。したがって、残差が適切に動作するかどうかを知りたいです。ただし、どの残差プロットでプロットするか、プロットをどのように解釈するかはわかりません。 新しいバージョンのlme4(GitHubの開発バージョン)を使用していることに注意してください。 packageVersion("lme4") ## [1] ‘1.1.0’ 私の質問は次のとおりです。ロジットリンク関数を使用して、二項一般化線形混合モデルの残差を検査および解釈するにはどうすればよいですか。 次のデータは、実際のデータの17%しか表していませんが、フィッティングは既に私のマシンで約30秒かかるため、次のようにします。 require(lme4) options(contrasts=c('contr.sum', 'contr.poly')) dat <- read.table("http://pastebin.com/raw.php?i=vRy66Bif") dat$V1 <- factor(dat$V1) m1 <- glmer(true ~ distance*(consequent+direction+dist)^2 + (direction+dist|V1), dat, family = binomial) 最も単純なプロット(?plot.merMod)は以下を生成します。 plot(m1) これはすでに何か教えてくれますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.