タグ付けされた質問 「residuals」

モデルの残差は、実際の値から予測値を引いたものです。多くの統計モデルは、残差によって推定されるエラーについての仮定を行います。

3
残差が正規分布しているが、yが分布していない場合はどうなりますか?
奇妙な質問があります。単純な線形モデルで分析する従属変数が大きく左に歪んでいる小さなサンプルがあると仮定します。したがって、uuuは正規分布していないと仮定します。これは、が正規分布になるためyyyです。しかし、QQ-Normalプロットを計算すると、残差が正規分布しているという証拠があります。したがって、はそうではありませんが、エラー項は正規分布していると誰でも想定できます。エラー用語が正規分布しているように見えるが、はそうではない場合、それはどういう意味ですか?yyyyyyy

1
plot.lm()の解釈
Rのplot(lm)によって生成されたグラフの解釈について質問がありました。スケール位置プロットとレバレッジ残差プロットの解釈方法を教えていただけませんか。コメントをいただければ幸いです。統計、回帰、計量経済学の基本的な知識があると仮定します。

4
カウント回帰の診断プロット
結果がカウント変数である回帰の場合、どの診断プロット(およびおそらく正式なテスト)が最も有益だと思いますか? 特に、ポアソンモデルと負の二項モデル、およびそれぞれのゼロ膨張モデルとハードルモデルに興味があります。私が見つけた情報源のほとんどは、これらのプロットがどのように「見える」べきかについての議論なしに、単純に残差対適合値をプロットします。 知恵と参考文献は大歓迎です。関連する場合、なぜこれを尋ねているのかについてのバックストーリーは、私の別の質問です。 関連する議論: glmモデルの残差診断プロットを解釈しますか? 一般化線形モデルの仮定 GLM-診断とどのファミリー

3
ロジスティック回帰の残差はどういう意味ですか?
この質問に答える際に、 John Christieは、残差を評価することによりロジスティック回帰モデルの適合性を評価することを提案しました。OLSで残差を解釈する方法に精通しています。それらはDVと同じスケールであり、yとモデルによって予測されたyの差は非常に明確です。ただし、ロジスティック回帰では、残差がロジスティック回帰で何を意味するのかわからなかったため、過去にAICなどのモデル近似の推定値を調べてきました。見た後Rのヘルプファイル、私はRで利用できるGLM残差の5種類があることがわかり少しc("deviance", "pearson", "working","response", "partial")。ヘルプファイルは以下を参照します。 Davison、ACおよびSnell、EJ(1991)残差および診断。In:統計理論とモデリング。デイビッド・コックスS、FRS編 ヒンクリー、DV、リード、N。、スネル、EJ、チャップマン&ホール。 私はそのコピーを持っていません。これらの各タイプの解釈方法を説明する簡単な方法はありますか?ロジスティックコンテキストでは、残差の二乗和がモデルの適合性の有意義な尺度を提供しますか、それとも情報量基準の方が良いでしょうか?

3
ANOVA仮定の正規性/残差の正規分布
ANOVAのウィキペディアのページには、次の3つの仮定がリストされています。 ケースの独立性-これは、統計分析を簡素化するモデルの仮定です。 正規性-残差の分布は正規です。 等分散性と呼ばれる分散の平等(または「均一性」)... ここで重要な点は、2番目の仮定です。いくつかのソースは、仮定を異なってリストしています。生データの正常性、残差の主張などがあります。 いくつかの質問が表示されます: 残差の正規性と正規分布は同じ人ですか(Wikipediaのエントリに基づいて、正規性はプロパティであり、残差に直接関係しないと主張します(しかし、残差のプロパティ(括弧内の深くネストされたテキスト、気紛れ)))? そうでない場合、どの仮定を保持する必要がありますか?1?両方? 正規分布の残差の仮定が正しい場合、生の値のヒストグラムのみの正規性をチェックすることで重大な間違いを犯していますか?

6
残差は「予測マイナス実際」または「実際マイナス予測」です
「予測値から実際の値を引いたもの」または「実際の値から予測した値を引いたもの」としてさまざまに定義された「残差」を見てきました。説明のために、両方の式が広く使用されていることを示すために、次のWeb検索を比較します。 残余「予測マイナス実際」 残余「実際のマイナス予測」 実際には、個々の残差の符号は通常重要ではないので、違いはほとんどありません(たとえば、それらが二乗されているか、絶対値が取られている場合)。ただし、私の質問は次のとおりです。これら2つのバージョンの1つ(最初に予測対実際の最初)は「標準」と見なされますか 私は自分の使用法に一貫性がありたいので、確立された従来の標準があれば、それに従うことを望みます。ただし、標準が存在しない場合、標準の慣例がないことが納得できるように示されれば、それを回答として受け入れます。

2
なぜベイジアンは残差を見ることができないのですか?
記事「ディスカッション:エコロジストはベイジアンになるべきか?」ブライアンデニスは、ベイジアン統計について驚くほどバランスの取れた前向きな見解を示しています。しかし、ある段落では、引用や正当化なしで、彼は言います: ご覧のとおり、ベイジアンは残差を見ることができません。モデルの下でどれだけ極端かによって結果を判断する可能性の原則に違反します。ベイジアンにとって、悪いモデルはなく、悪い信念だけです。 なぜベイジアンは残差を見ることを許されないのでしょうか?これに適切な引用は何でしょうか(つまり、彼は誰を引用していますか)? デニス、B。 ディスカッション:生態学者はベイジアンになるべきか? 生態アプリケーション、アメリカ生態学会、1996、6、1095年から1103年

5
OLS残差が正規分布していない場合の回帰
このサイトには、OLS残差が漸近的に正規分布しているかどうかを判断する方法を議論するいくつかのスレッドがあります。Rコードで残差の正規性を評価する別の方法はこのすばらしい答えで提供されます。これは、標準化された残差と観測された残差の実際の違いに関する別の議論です。 しかし、この例のように、残差は明らかに正規分布していないとしましょう。ここには数千の観測があり、明らかに正規分布の残差の仮定を拒否しなければなりません。問題に対処する1つの方法は、回答で説明されているように、何らかの形式の堅牢な推定量を使用することです。しかし、私はOLSに限定されず、実際、他のglmまたは非線形の方法論の利点を理解したいと思います。 残差の仮定のOLS正規性に違反するデータをモデル化する最も効率的な方法は何ですか?または、少なくとも健全な回帰分析方法論を開発するための最初のステップは何ですか?


3
残留標準誤差とは何ですか?
Rで重回帰モデルを実行する場合、出力の1つは自由度95,161で0.0589の残留標準誤差です。95,161の自由度は、サンプルの観測数とモデルの変数の数の差によって与えられることを知っています。残留標準誤差とは何ですか?

3
R-残りの用語で混乱
二乗平均平方根誤差 残差平方和 残留標準誤差 平均二乗誤差 テストエラー 私はこれらの用語を理解していたと思っていましたが、統計的な問題を多くすればするほど、私が自分自身を再考する場所を混乱させました。安心と具体的な例をお願いします 方程式はオンラインで簡単に見つけることができますが、これらの用語の「5のような説明」を得るのに苦労しています。 誰もがこのコードを下に取り、これらの用語のそれぞれをどのように計算するかを指摘できるなら、感謝します。Rコードは素晴らしいでしょう。 以下の例を使用します。 summary(lm(mpg~hp, data=mtcars)) 見つける方法をRコードで教えてください: rmse = ____ rss = ____ residual_standard_error = ______ # i know its there but need understanding mean_squared_error = _______ test_error = ________ これらの違い/類似点を5のように説明するためのボーナスポイント。例: rmse = squareroot(mss)

2
線形モデルの仮定を検証するための残差対適合値プロットの解釈
Rを使用したFarawayの線形モデル(2005年、59ページ)の次の図を検討してください。 最初のプロットは、残差と適合値が無相関であることを示しているようです。これらは、正規分布誤差のあるホモセダスティック線形モデルにあるはずです。したがって、2番目と3番目のプロットは、残差と近似値の間の依存関係を示しているように見えますが、異なるモデルを示唆しています。 しかし、Farawayが指摘しているように、なぜ2番目のプロットは異分散線形モデルを示唆し、3番目のプロットは非線形モデルを示唆しているのでしょうか? 2番目のプロットは、残差の絶対値が近似値と強く正の相関があることを示しているようですが、3番目のプロットではそのような傾向は明らかではありません。そのため、理論的に言えば、正規分布誤差を持つ不均一線形モデルである場合 Cor(e,y^)=⎡⎣⎢⎢1⋮1⋯⋱⋯1⋮1⎤⎦⎥⎥Cor(e,y^)=[1⋯1⋮⋱⋮1⋯1] \mbox{Cor}\left(\mathbf{e},\hat{\mathbf{y}}\right) = \left[\begin{array}{ccc}1 & \cdots & 1 \\ \vdots & \ddots & \vdots \\ 1 & \cdots & 1\end{array}\right] (左の式は残差と近似値の間の分散共分散行列です)、これは2番目と3番目のプロットがFarawayの解釈と一致する理由を説明します。 しかし、これは事実ですか?そうでない場合、2番目と3番目のプロットに対するFarawayの解釈は他にどのように正当化できますか?また、なぜ3番目のプロットが必ずしも非線形性を示しているのですか?線形である可能性はありますが、エラーが正規分布していないか、または正規分布しているがゼロを中心にしない可能性がありますか?

3
従属変数の正規性=残差の正規性?
この問題はいつもitsい頭を抱えているようで、私は統計を自分自身で理解するために(そして正気!)首を切り落とそうとしています。 一般的な線形モデルの仮定(t検定、ANOVA、回帰など)には「正規性の仮定」が含まれますが、これが明確に記述されることはめったにありません。 私は、多くの場合、単に「正規性の仮定が」それぞれに適用されることを示す統計の教科書/マニュアル/などに遭遇グループ(すなわち、カテゴリX変数)、そして我々は我々が正常からの逸脱を調べる必要があり、各グループを。 質問: 仮定はY の値またはYの残差を参照していますか? 特定のグループでは、Y 値の強い非正規分布(たとえば、歪んだ)を持つことができますが、Y の残差のほぼ(または少なくともより正規の)分布ですか? 他の情報源は、仮定がモデルの残差に関するものであると説明しています(t検定/ ANOVAなどのグループがある場合)。これらの残差の正規性の逸脱を調べる必要があります(つまり、実行)。 以下のための残差の正規んモデルはのための残差の正規性を意味するものでグループを?言い換えれば、モデルの残差を調べるだけでよい(多くのテキストの指示に反する)。 これを状況に当てはめるために、この架空の例を考えてみましょう。 2つの母集団(X)間のツリーの高さ(Y)を比較します。 1つの母集団では、Yの分布は強く右に歪んでいます(つまり、ほとんどの木が短く、背が非常にわずかです)。 身長は、正規分布の母集団で全体的に高くなっています(「本当の」違いがある可能性を示唆しています)。 データの変換は、最初の母集団の分布を実質的に改善しません。 まず、根本的に異なる高さ分布が与えられたグループを比較することは有効ですか? ここで「正常性の仮定」にアプローチするにはどうすればよいですか?1つの母集団のリコールの高さは正規分布ではありません。両方の母集団の残差を個別に調べるか、モデルの残差を調べますか(t検定)? 返信で質問を番号で参照してください。経験により、人々は迷子になったり、簡単に追跡できたりすることがわかりました(特に私です!)。私は統計学者ではないことに注意してください。ただし、統計についてはかなり概念的な(つまり、技術的ではない!)理解があります。 PS、私はアーカイブを検索し、私の理解を強固にしていない次のスレッドを読みました。 ANOVA仮定の正規性/残差の正規分布 残差対標本データの正規性; t検定はどうですか? 正規性テストは「本質的に役に立たない」ですか? 正常性のテスト 分布の正規性の評価 残差が正規分布していることを確認するために、どのテストを使用しますか? Kolmogorov-Smirnov検定がパラメトリック検定の残差に対して重要であるが、歪度と尖度が正常に見える場合はどうすればよいですか?

3
ロジスティック回帰の95%信頼区間を手動で計算することと、Rでconfint()関数を使用することに違いがあるのはなぜですか?
皆さん、私は説明できない奇妙なことに気づきました、できますか?要約すると、ロジスティック回帰モデルで信頼区間を計算する手動のアプローチとR関数confint()は異なる結果をもたらします。 Hosmer&LemeshowのApplied Logistic Regression(第2版)を行ってきました。第3章には、オッズ比と95%の信頼区間を計算する例があります。Rを使用すると、モデルを簡単に再現できます。 Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

3
glmモデルの残差診断プロットを解釈しますか?
glmモデルの残差プロットの解釈方法に関するガイドラインを探しています。特にポアソン、負の二項、二項モデル。モデルが「正しい」場合、これらのプロットから何を期待できますか?(たとえば、ポアソンモデルを扱う場合、予測値が増加すると分散が大きくなると予想されます) 答えはモデルに依存することを知っています。参考文献(または考慮すべき一般的なポイント)があれば参考になります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.