タグ付けされた質問 「residuals」

モデルの残差は、実際の値から予測値を引いたものです。多くの統計モデルは、残差によって推定されるエラーについての仮定を行います。

1
生存分析(Cox回帰)の異なるタイプの残差の違いは何ですか?
私はサバイバル分析はかなり新しいです。比例ハザードの仮定が満たされているかどうかを確認するために、モデル診断の一部としてシェーンフェルト残差を調べて学習するようにアドバイスされました。これを調べている間、私は以下を含む多くの異なるタイプの残差への参照を見てきました: コックススネル 逸脱 マルチンゲール スコア シェーンフェルト これらの残差の違いは何ですか?また、いつ使用することが推奨されますか?(私が読んで行くために単に論文へのリンクである答えに満足しています。)

1
ポアソン回帰の残差
Zuur 2013 Beginners Guide to GLM&GLMMは、ピアソンの残差を近似値に対してプロットすることによりポアソン回帰を検証することを提案しています。Zuurは、添付された(手描きの)プロットのように、近似値が増加しても残差が広がってはならないことを示しています。 しかし、ポアソン分布の重要な特徴は、平均が増加するにつれて分散が増加することだと思いました。それでは、近似値が増加するにつれて、残差の変動が増加することを期待するべきではないでしょうか?

3
この残差プロットをどのように解釈すればよいですか?
このグラフを解釈できません。私の従属変数は、ショーで販売される映画チケットの総数です。独立変数は、ショーの前に残った日数、季節性ダミー変数(曜日、年、月、休日)、価格、日付までに販売されたチケット、映画の評価、映画の種類(スリラー、コメディなど)です。 )。また、映画館の定員は固定ですのでご了承ください。つまり、最大xの人数のみをホストできます。線形回帰ソリューションを作成していますが、テストデータに適合していません。だから私は回帰診断から始めることを考えました。データは、需要を予測したい単一の映画館からのものです。 は多変量データセットです。日付ごとに、ショーの前日を表す90の重複行があります。したがって、2016年1月1日のレコードは90です。ショーの何日前かを示す 'lead_time'変数があります。つまり、2016年1月1日の場合、lead_timeの値が5であれば、ショーの日付の5日前までチケットが販売されます。従属変数、販売されたチケットの合計では、同じ値が90回得られます。 また、余談として、残差プロットを解釈して後でモデルを改善する方法を説明した本はありますか?

3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

1
ロジスティック回帰でのビン化された残差プロットの解釈
私はとロジスティック回帰しております独立変数と123 、996回の観測を。データがモデルの前提条件を満たしているかどうかを判断するためにモデルフィットを評価しており、パッケージを使用して次のビニング残差プロットを作成しました。242424123,996123,996123,996arm R このプロットには明らかにいくつかの悪い兆候があります。多くの点が信頼帯の外にあり、残差には独特のパターンがあります。私の質問は-これらの問題をロジスティック回帰モデルの特定の仮定に関連付けることはできますか?たとえば、独立変数または異分散性の非線形性の証拠があると言えますか?そうでない場合、問題がどこにあるかを特定するのに役立つ他の診断を作成できますか? ダニエルの回答に基づくと、主な問題は、ロジットスケールでは残差を使用していましたが、応答スケールでは期待値を使用していることです。残差を含むプロットを応答スケールでも再現すると、次のようになります。 それははるかに信じられます。

1
残差eは誤差の推定量ですか?
この質問は私が始めた別のスレッドで出てきたので、もっと多くの人々の意見を得たいと思いました。私の質問は 残差eは誤差の推定量ですか?εϵ\epsilon 私が尋ねる理由は次のとおりです。OLSでは、残差の分散は回帰の分散として知られています(RSSは残差の二乗和です)。同様に、この分散の平方根であるは、回帰の標準誤差です。分散の平方根が標準誤差であることを、この分散が推定量の分散であることを意味するはずです。私たちはすでにそれが残差の分散であることを知っています。したがって、残差は推定量ですか?(私はを想定しています) √RSS(n − K)RSS(n−K)\frac{\text{RSS}}{(n - K )} RSSRSS(n − K)−−−−−√RSS(n−K)\sqrt\frac{\text{RSS}}{(n - K )} ϵRSS(n − K)RSS(n−K)\frac{\text{RSS}}{(n - K )}εϵ\epsilon 考え?

1
断面データでOLS回帰を実行する場合、残差の自己相関をテストする必要がありますか?
時間に関係なく、一連の観察結果があります。自己相関テストを実行する必要があるかどうか疑問に思っていますか?私のデータには時間コンポーネントがないので、それは意味がないように思えます。しかし、実際にシリアル相関LMテストを試したところ、残差の強い自己相関が示されました。それは意味がありますか?私が考えていることは、実際にデータセット内の観測値を可能な限り任意の順序に並べ替えることができ、これにより残差の自己相関が変化することです。だから問題は-この場合、自己相関についてまったく気にする必要がありますか?また、テストで示されている場合、Newey-Westを使用してSEを調整する必要がありますか?ありがとう!

2
残差の非正規性
残差の正規分布の重要性に疑問を呈するように見えるこの投稿を参照します。これは、不均一分散とともに、ロバストな標準誤差を使用することで回避できる可能性があると主張しています。 私はさまざまな変換(ルート、ログなど)を検討しましたが、すべて問題を完全に解決するのに役に立たないことがわかりました。 これが私の残差のQQプロットです。 データ 従属変数:すでに対数変換を使用(このデータの外れ値の問題と歪度の問題を修正) 独立変数:会社の年齢、およびいくつかのバイナリ変数(指標)(後で、独立変数として別の回帰のためにいくつかのカウントがあります) iqrStata のコマンド(Hamilton)は、正規性を除外する重大な外れ値を特定しませんが、下のグラフはそうでないことを示唆しており、Shapiro-Wilkテストもそうです。

3
SPSSを使用した2x3混合設計ANOVAの事後テスト?
実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group(コントロール、実験)、time(最初、2、3)、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。 グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。 したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です! 記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。 インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。 どう思いますか?どちらが正しい方法でしょうか?
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 

1
回帰モデルにおける同時不均一性と重い裾
回帰を使用して予測モデルを作成しようとしています。これは、Rでlm()を使用して取得したモデルの診断プロットです。 QQプロットから読み取ったのは、残差が裾が重い分布であり、残差vs適合プロットは残差の分散が一定でないことを示唆しているようです。堅牢なモデルを使用して、残差の重い裾を飼いならすことができます。 fitRobust = rlm(formula, method = "MM", data = myData) しかし、それは物事が止まるところです。ロバストモデルの重さはいくつかの点0です。これらの点を削除すると、ロバストモデルの残差と近似値は次のようになります。 異分散はまだそこにあるようです。使用する logtrans(model, alpha) αα\alpha rlm(formula, method = "MM") ログ(Y+ α )〜X1+ ⋯ + Xんログ⁡(Y+α)〜バツ1+⋯+バツん\log(Y + \alpha) \sim X_1+\cdots+X_nαα\alpha 私には、残差がまだ一定の分散を持っていないように見えます。私は他の応答変換(Box-Coxを含む)を試しましたが、それらも改善のようには見えません。私がやっていることの第2段階(つまり、ロバストなモデルでの応答の変換を見つけること)が、どの理論によってもサポートされているかどうかさえわかりません。コメント、考え、または提案をいただければ幸いです。

3
OLS: 1番目の方程式のは2番目の方程式の標準誤差にバイアスをかけますか?
仮定との時系列である、(とは場合と似ていますが、ダミー= 1)の場合に変更されます。そして、。現実の世界では、これは社の定期的な株式市場のリターンになります(ただし、これは無視できます)。ダミーのがあり、これはでの単一性に等しく、それ以外の場合はゼロに等しくなります。OLS推定される時系列モデルは次のとおりです。Xit,YitXit,Yit{X_{it}},{Y_{it}}Xit∼N(0.1,1)Xit∼N(0.1,1)X_{it}\sim N(0.1,1)σ2(Yit)=1σ2(Yit)=1\sigma^2(Y_{it}) = 1mean(Yit)mean(Yit)mean(Y_{it})XitXitX_{it}t∈{1,2,...,200}t∈{1,2,...,200}t \in \{1,2,...,200\}i∈{1,2,...,N}i∈{1,2,...,N}i \in \{1,2,...,N\}NNNDtDtD_tt∈{150,151,...,200}t∈{150,151,...,200}t \in \{150,151,...,200\}∀i∀i\forall i (1)Yit=αi+βiXit+γiDt+ϵit(1)Yit=αi+βiXit+γiDt+ϵit(1) Y_{it} = \alpha_i + \beta_i X_{it} + \gamma_i D_{t} + \epsilon_{it} このモデルは通常、各ガウスマルコフ仮定に準拠しています。ただし、すべてのおよびに対してがあります。iiiE[ϵTitϵjt]≠0E[ϵitTϵjt]≠0E[\epsilon_{it}^T \epsilon_{jt}] \not= 0iiijjj 次のステップは、モデル推定値を使用してガンマのベクトルを作成することです。このベクトルを呼びます。次に、これを断面モデルで使用します。NNNγ(1)(1)(1)γ^γ^\bf{\hat{\gamma}} (2)γ^i=a+bZi+ui(2)γ^i=a+bZi+ui(2) \hat{\gamma}_i = a + b Z_i + u_i ここで、は、OLSの仮定に違反を引き起こさないいくつかの断面変数であり、説明に関連しています。γ IZiZiZ_iγ^iγ^i\hat{\gamma}_i 適用された計量経済学の文献に記載があることモデルにおけるにおけるOLS係数推定のための(i)は問題なしにリード、しかし、(ⅱ)に標準エラーにバイアス。E[ϵTitϵjt]≠0E[ϵitTϵjt]≠0E[\epsilon_{it}^T \epsilon_{jt}] \not= 0(1)(1)(1)(2)(2)(2)(2)(2)(2) これが事実である理由について誰かがアイデアを投稿してくれませんか? が式ものを理解できません。もちろん、はスカラーであり、スカラーを転置することはできません。これは、見ているHERE彼らはこの方法を適用する場合は、。ϵTitϵitT\epsilon_{it}^TE[ϵTitϵjt]≠0E[ϵitTϵjt]≠0E[\epsilon_{it}^T \epsilon_{jt}] \not= 0ϵitϵit\epsilon_{it}

2
2x2 ANOVAで正規性をテストする方法は?
研究デザイン:海面上昇に関するいくつかの情報を参加者に示し、時間スケールと潜在的な上昇の大きさの両方の観点から、さまざまな方法で情報に焦点を合わせました。したがって、2(時間:2050または2100)x 2(マグニチュード:中または高)のデザインがありました。情報を受け取らなかった2つのコントロールグループもあり、私のDVへの質問に答えるだけでした。 質問: 私は常にセル内の正規性をチェックしました。このデザインの2x2の部分では、4つのグループ内の正規性を探すことになります。ただし、ここでいくつかの議論を読んだことで、自分の方法を2番目に推測してしまいました。 最初に、私は残差の正規性を見なければならないことを読みました。(SPSSまたはその他の場所で)残差の正規性を確認するにはどうすればよいですか?4つのグループ(コントロールを含めて6つ)ごとにこれを行う必要がありますか? また、グループ内の正規性は残差の正規性を意味することも読みました。これは本当ですか?(文献参照)繰り返しますが、これは4つのセルのそれぞれを個別に見ることを意味しますか? つまり、(2x2)データが正常性の仮定に違反していないかどうかを判断するためにどのような手順を実行しますか? たとえ私を正しい方向に向けるだけであっても、参照は常に高く評価されています。

3
異質性/異分散性の説明に関するアドバイス
私の部門の生物学者に異質性/異分散性を説明する方法についてのヘルプ、アドバイス、またはヒントを探しています。特に、なぜそれを探し、それが存在する場合はそれに対処することが重要である理由を説明したいのですが、私は次の質問についての意見を探していました。 異質性は変量効果推定の信頼性に影響を与えますか?確かにあると思いますが、論文が見つかりませんでした。 異質性はどれほど深刻な問題ですか?私はこれについて矛盾する見解を発見しましたが、モデルの標準エラーなどは信頼できないと言う人もいますが、異質性が深刻な場合にのみ問題であることも読みました。重症度はどれくらいですか? 異質性のモデリングに関するアドバイス。現在、私は主にRのnlmeパッケージと分散共変量の使用に焦点を当てています。これはかなり簡単で、ここでほとんどの人がRを使用しているため、スクリプトを提供すると便利です。私はMCMCglmmパッケージも使用していますが、他の提案、特に通常でないデータについては歓迎します。 その他の提案は大歓迎です。

2
GLMの残差はどこにありますか?
私は今、標準モデルに続いてGLMに移行しています。 標準モデルでは、 y = Xb + epsilon また、イプシロンは正規分布であると想定されます。つまり、 y - Xb = epsilon 次に、正規性の仮定を前提として、適切なノルムを使用してlhsを最小化できます。 GLMでは、これらの残差はどこにも見られないので、残差の仮定は何ですか?つまり、GLMを当てはめ、残差を決定するとき、分布の仮定をどのようにチェックしますか?qqplot?何に対して?通常の分位?または、選択した分布の分位点ですか? 私が理解しているGLM: mu = Xb, mu = Ey, y follows some non-Gaussian distribution.

2
線形回帰で、なぜ生の最小二乗残差が不均一になるのですか?
異分散性の検出に関する回帰コースに関する私のコースノートでは、次の引用があります。 「最小二乗残差は、等分散性の場合でも不均等な分散を持っているため、標準化された残差を使用することが望ましいです。」 私の直感は、LS回帰直線は必ずデータクラウドの中心を通るので、尾よりも共変量空間の中央の点により適しているため、極端な分散が大きくなることを教えてくれます。 これにもかかわらず、これはそれが必要であるとは思われません。それと同時に、標準化された、またはスチューデント化された残差の等分散性を考慮し、生の残差を考慮しないのはなぜですか。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.