タグ付けされた質問 「residuals」

モデルの残差は、実際の値から予測値を引いたものです。多くの統計モデルは、残差によって推定されるエラーについての仮定を行います。

2
ロジスティック回帰モデルの評価
この質問は、ロジスティックモデルで十分かどうかを判断する方法に関する実際の混乱から生じています。従属変数として形成されてから2年後に、個々のプロジェクトのペアの状態を使用するモデルがあります。結果は成功(1)または失敗(0)です。ペアの形成時に測定された独立変数があります。私の目的は、私が仮定した変数がペアの成功に影響を与えるかどうかをテストし、その成功に影響を与え、他の潜在的な影響を制御することです。モデルでは、対象の変数は重要です。 モデルはのglm()関数を使用して推定されましたR。モデルの品質を評価するために、私はいくつかのことを行っている:glm()あなたは与えresidual deviance、AICそしてBICデフォルトで。さらに、モデルのエラー率を計算し、ビン化された残差をプロットしました。 完全なモデルは、私が推定した(および完全なモデルにネストされている)他のモデルよりも小さい残差、AICおよびBICを持っているため、このモデルは他のモデルよりも「優れている」と思います。 モデルのエラー率はかなり低く、IMHO(Gelman and Hill、2007、pp.99のように):、 error.rate <- mean((predicted>0.5 & y==0) | (predicted<0.5 & y==1)約20%です。 ここまでは順調ですね。しかし、ビン化された残差をプロットすると(再びGelman and Hillのアドバイスに従って)、ビンの大部分が95%CIの範囲外になります。 このプロットは、モデルにまったく問題があると思うように導きます。それはモデルを捨てることに私を導くべきですか?モデルが不完全であることを認める必要がありますが、それを維持し、対象変数の効果を解釈する必要がありますか?ビン化された残差プロットを実際に改善することなく、変数を順番に除外し、変換も試行錯誤しました。 編集: 現時点では、モデルには多数の予測子と5つの相互作用効果があります。 これらのペアは、すべてが短時間で形成されるという意味で(ただし、厳密に言えば、すべて同時にではない)という意味で互いに「比較的」独立しており、多数のプロジェクト(13k)と多数の個人(19k )そのため、かなりの割合のプロジェクトには1人の個人しか参加していません(約20000ペアあります)。

2
GLMのファミリーは、応答変数または残差の分布を表しますか?
私はこれについていくつかの研究室のメンバーと議論してきました、そして私たちはいくつかの情報源に行きましたが、まだ答えがありません: GLMにポアソンのファミリーがあると言うとき、残差の分布または応答変数について話していますか? 競合のポイント この記事を読むと、GLMの仮定は、観測の統計的独立性、リンクと分散関数の正しい仕様(応答変数ではなく残差について考えるようになる)、応答変数の正しい測定スケールであると述べています。単一ポイントの過度の影響の欠如 この質問には、それぞれ2つのポイントを持つ2つの答えがあります。最初に表示されるのは残差について、2番目は応答変数についてです。 このブログ投稿では、仮定について話しているときに、「残差の分布は他のもの、たとえば二項分布である可能性がある」と述べています。 この章の冒頭で、彼らはエラーの構造はポアソンでなければならないが、残差は確かに正と負の値を持っていると言います。どうしてポアソンになりますか? この質問は、複製するためにこのような質問でよく引用されますが、受け入れられた答えはありません この質問の答えは、残差ではなく応答について語っています で、この Pensilvaniaの大学からのコースの説明彼らは仮定ではなく、残差に応答変数について話します

3
残差自己相関とラグ付き従属変数
時系列をモデル化するとき、(1)AR(1)プロセスなどのエラー項の相関構造をモデル化する可​​能性があります(2)説明変数として遅延従属変数を含む(右側) 私は彼らが(2)に進むべき実質的な理由であることを理解しています。 ただし、(1)または(2)のいずれか、あるいはその両方を行う方法論的な理由は何ですか?

1
GBMパッケージとGBMを使用したキャレット
私はを使用してモデルのチューニングを行ってきましたがcaret、gbmパッケージを使用してモデルを再実行しています。caretパッケージが使用gbmし、出力が同じである必要があることは私の理解です。ただし、を使用した簡単なテスト実行でdata(iris)は、評価指標としてRMSEとR ^ 2を使用したモデルで約5%の不一致が示されています。を使用して最適なモデルのパフォーマンスを見つけたいが、部分的な依存関係プロットを利用するためにcaret再実行しgbmます。再現性のために以下のコード。 私の質問は次のとおりです。 1)これらの2つのパッケージは同じであっても違いがあるのはなぜですか(確率的ですが、5%がやや大きな違いであることがわかります。特に、次のような素晴らしいデータセットを使用していない場合 iris、モデリングの) 。 2)両方のパッケージを使用する利点または欠点はありますか? 3)無関係:irisデータセットを使用した場合、最適な値interaction.depthは5ですが、読み取り値が最大値floor(sqrt(ncol(iris)))である2 を超えるはずです。これは厳密な経験則ですか、それとも非常に柔軟ですか。 library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) …

2
正規分布のXとYは、正規分布の残差になる可能性が高いですか?
ここでは、線形回帰における正規性の仮定の誤解について説明し(「正規性」は残差ではなくXおよび/またはYを参照する)、ポスターは非正規分布のXおよびYを持つことが可能かどうかを尋ねますまだ正規分布の残差があります。 私の質問は、正規分布のXとY は正規分布の残差をもたらす可能性が高いですか?多くの関連する投稿がありましたが、この質問を具体的に尋ねられた人は誰もいないと思います。 回帰が1つしかない場合、これはおそらく些細な点ですが、複数のテストがある場合はそれほど重要ではないことを理解しています。だから、100個のX変数があり、それらはすべて同じスキューを持っているので、すべてをテストしたいとします。それらをすべて正規分布に変換した場合、非正規分布の残差のために再検査が必要なX変数が少なくなります(異なる/変換なし)か、または回帰前の変換は完全に任意ですか?

5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

4
回帰残差分布の仮定
誤差に分布の仮定を置く必要があるのはなぜですか、すなわち yi=Xβ+ϵiyi=Xβ+ϵiy_i = X\beta + \epsilon_{i}と、ϵi∼N(0,σ2)ϵi∼N(0,σ2)\epsilon_{i} \sim \mathcal{N}(0,\sigma^{2})。 書いてみませんか yi=Xβ+ϵiyi=Xβ+ϵiy_i = X\beta + \epsilon_{i}とyi∼N(Xβ^,σ2)yi∼N(Xβ^,σ2)y_i \sim \mathcal{N}(X\hat{\beta},\sigma^{2})、 ここで、いずれの場合にϵi=yi−y^ϵi=yi−y^\epsilon_i = y_i - \hat{y}。 分布に関する仮定は、データではなくエラーに置かれていることを強調していますが、説明はありません。 私はこれら2つの処方の違いを本当に理解していません。私は、データに分布の仮定が置かれている場所をいくつか見ています(ベイジアンのように見えますが、ほとんどそうです)が、ほとんどの場合、仮定はエラーに置かれています。 モデル化するとき、なぜどちらか一方の仮定から始めることを選択するのはなぜですか?

2
生データで回帰的なモデ​​ルの仮定をテストする人と、残差でテストする人がいるのはなぜですか?
私は実験心理学の博士課程の学生であり、データの分析方法に関するスキルと知識の向上に努めています。 心理学の5年目まで、私は回帰的モデル(ANOVAなど)が次のことを想定していると考えていました。 データの正常性 データの分散均一性など 私の学部課程では、仮定はデータに関するものであると信じるようになりました。しかし、私の5年目に、私のインストラクターの何人かは、仮定が生データではなく誤差(残差によって推定される)についてであるという事実を強調しました。 最近、私の同僚の何人かと仮定の質問について話していました。同僚も、大学の最後の年にのみ残差の仮定をチェックすることの重要性を発見したことを認めました。 私がよく理解していれば、回帰的なモデ​​ルはエラーを仮定しています。したがって、残差の仮定を確認することは理にかなっています。もしそうなら、なぜ一部の人々は生データの仮定を確認しますか?そのようなチェック手順は、残差をチェックすることで得られるものに近いためでしょうか? 私はこの問題について、同僚や私よりも正確な知識を持っている人たちと議論することに非常に興味を持っています。あなたの答えを前もって感謝します。


2
ロジスティック回帰残差分析
この質問は一種の一般的で長々としたものですが、どうかご容赦ください。 私のアプリケーションには、多くのデータセットがあり、各データセットは、最大20,000個のデータポイントと最大50個の機能と1つの従属バイナリ変数で構成されています。正規化されたロジスティック回帰(Rパッケージglmnet)を使用してデータセットをモデル化しようとしています 分析の一環として、次のように残差プロットを作成しました。各機能について、その機能の値に従ってデータポイントを並べ替え、データポイントを100個のバケットに分割し、各バケット内の平均出力値と平均予測値を計算します。これらの違いをプロットします。 残差プロットの例を次に示します。 上記のプロットでは、特徴の範囲は[0,1](1の濃度が濃い)です。ご覧のとおり、特徴値が低い場合、モデルは1出力の可能性を過大評価する方向に偏っているように見えます。たとえば、左端のバケットでは、モデルは確率を約9%過大評価しています。 この情報を活用して、このバイアスを大まかに修正するために、機能の定義を簡単な方法で変更したいと思います。交換などの変更 x→x−−√x→xx \rightarrow \sqrt{x} または x→fa(x)={ax if x&lt;a elsex→fa(x)={a if x&lt;a x elsex \rightarrow f_a(x) = \cases{a & if $x<a$ \cr x & else} これどうやってするの?人間が50個のプロットすべてをすばやくスクロールして変更できるようにする一般的な方法論を探しています。これをすべてのデータセットに対して実行し、頻繁に繰り返して、データが時間の経過とともに最新の状態に維持されるようにします。 一般的な質問として、これは正しいアプローチですか?Googleが「ロジスティック回帰残差分析」を検索しても、実用的なアドバイスが得られても多くの結果は返されません。彼らは、「このモデルはぴったりだろうか?」という質問に答えることに固執しているようです。Hosmer-Lemeshowのようなさまざまなテストを提供して回答します。しかし、私のモデルが良いかどうかは気にしません。もっと良くする方法を知りたいです!

1
フィッシャーの厳密検定と超幾何分布
私はフィッシャーの正確なテストをよりよく理解したかったので、次のおもちゃの例を考案しました。ここで、fとmは男性と女性に対応し、nとyは次のように「ソーダ消費」に対応します。 &gt; soda_gender f m n 0 5 y 5 0 明らかに、これは大幅な簡略化ですが、コンテキストが邪魔になりたくありませんでした。ここで私は男性がソーダを飲まず、女性がソーダを飲まないと仮定し、統計手順が同じ結論になるかどうかを確認したかっただけです。 Rでフィッシャーの正確検定を実行すると、次の結果が得られます。 &gt; fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 ここでは、p値が0.007937であるため、性別とソーダ消費が関連付けられていると結論付けます。 フィッシャーの正確な検定が超幾何分布に関連していることを知っています。だから私はそれを使って同様の結果を得たいと思った。つまり、この問題は次のように表示できます。10個のボールがあり、5個が「男性」、5個が「女性」とラベル付けされており、交換せずに5つのボールをランダムに描画すると、0個の男性ボールが表示されます。 。この観察の可能性は何ですか?この質問に答えるために、次のコマンドを使用しました。 …

2
残差がグラフィックから自己相関しているかどうかを確認する方法
OLS回帰を実行し、結果の残差をプロットする場合、残差が自己相関しているかどうかをどのように確認できますか?これについてのテストがあることは知っていますが(Durbin、Breusch-Godfrey)、プロットを見て、自己相関が問題になるかどうかを判断できるかどうか疑問に思っていました(異分散性のため、これはかなり簡単です)。

2
異分散性と残差の正規性
私は非常に良い線形回帰を持っていると思います(大学のプロジェクトのため、本当に正確である必要はありません)。 ポイントは、私が残差対予測値をプロットした場合、(私の教師によれば)不均一分散のヒントがあることです。 しかし、残差のQQプロットをプロットすると、それらが正規分布していることは明らかです。さらに、残差のシャピロ検定の値はなので、残差が実際に正規分布していることは間違いないと思います。ppp0.80.80.8 質問:残差が正規分布している場合、予測値に不均一性はどのようにありますか?

2
Rの多重線形回帰のフィッティング:自己相関残差
私はこのような方程式でRの多重線形回帰を推定しようとしています: regr &lt;- lm(rate ~ constant + askings + questions + 0) 質問と質問は、で構成された四半期ごとのデータ時系列askings &lt;- ts(...)です。 問題は、自己相関残差を得たことです。gls関数を使用して回帰を適合させることができることは知っていますが、gls関数に実装する必要がある正しいARまたはARMAエラー構造を識別する方法はわかりません。 私は今、再び推定しようとします、 gls(rate ~ constant + askings + questions + 0, correlation=corARMA(p=?,q=?)) しかし、残念ながら、pとqを特定するRの専門家でも統計の専門家でもありません。 誰かが私に有用なヒントを与えてくれたら嬉しいです。事前にどうもありがとうございました! ジョー


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.