タグ付けされた質問 「residuals」

モデルの残差は、実際の値から予測値を引いたものです。多くの統計モデルは、残差によって推定されるエラーについての仮定を行います。

1
診断は残差に基づいているのはなぜですか?
単純な線形回帰では、推論を行うことができるように特定の仮定が満たされているかどうかを確認することがよくあります(たとえば、残差は正規分布です)。 当てはめられた値が正規分布しているかどうかをチェックすることにより、仮定をチェックすることは妥当ですか?

1
シェーンフェルト残差
多くの変数を含むCox比例ハザードモデルで、シェーンフェルト残差が変数の1つに対して平坦でない場合、これはモデル全体を無効にするか、またはパフォーマンスの低い変数だけを無視できますか?つまり、他の変数の係数を解釈しますが、パフォーマンスの低い変数の結果の係数は解釈しません。 シェーンフェルト残差が平坦でないモデルを処理するには、いくつかの標準的な方法があります。今のところ、それができないと仮定します。

2
線形回帰でバイナリ/二分独立予測子の残差分析を実行するにはどうすればよいですか?
マネージドファンドのリターンを予測するために、Rで以下の多重線形回帰を実行しています。 reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata) ここでは、GRIとMBAのみがバイナリ/二分予測です。残りの予測子は連続です。 このコードを使用して、バイナリ変数の残差プロットを生成しています。 plot(rawdata$GRI, reg$residuals) abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line (y~x) plot(rawdata$MBA, reg$residuals) abline(lm(reg$residuals~rawdata$MBA, data=rawdata), col="red") # regression line (y~x) 私の質問: 連続予測子の残差プロットを検査する方法は知っていますが、独立変数がバイナリの場合、等分散性などの線形回帰の仮定をどのようにテストしますか? 残差プロット:

4
重回帰の残差対近似値プロットの対角直線
私のデータの残差の奇妙なパターンを観察しています: [編集] 2つの変数の部分回帰プロットを次に示します。 [編集2] PPプロットを追加 ディストリビューションは順調に進んでいるようですが(下記参照)、この直線がどこから来ているのかわかりません。何か案は? [更新31.07] 確かに、あなたは完全に正しいことがわかりました。私は、リツイート数が実際に0であるケースがあり、これらの〜15のケースは、これらの奇妙な残差パターンをもたらしました。 残差はずっと良く見えます: 黄土の線を含む部分回帰も含めました。

1
GLMにはどのような残差とクックの距離が使用されますか?
クックの距離の式が何か知っている人はいますか?元のクックの距離式はスチューデント化された残差を使用していますが、Rがstdを使用するのはなぜですか。GLMのクックの距離プロットを計算するときのピアソン残差。学習した残差がGLMに対して定義されていないことは知っていますが、クックの距離を計算する式はどのように見えますか? 次の例を想定します。 numberofdrugs <- rcauchy(84, 10) healthvalue <- rpois(84,75) test <- glm(healthvalue ~ numberofdrugs, family=poisson) plot(test, which=5) クックの距離の式は何ですか?言い換えれば、赤い破線を計算する式は何ですか?そして、標準化されたピアソン残差のこの式はどこから来たのですか?


5
ダービン・ワトソン検定の統計
Rの回帰モデルにDWテストを適用し、1.78のDWテスト統計と2.2e-16 = 0のp値を得ました。 これは、統計値が2に近く、p値が小さいため、残差間に自己相関がないことを意味しますか、それとも、統計値が2に近いにもかかわらず、p値が小さいため、存在するという帰無仮説を棄却します自己相関なし?

2
OLSを使用して残差の誤差を回帰すると、勾配が常に正確に1になるのはなぜですか?
私は、Rの簡単なシミュレーションを使用して、誤差と残差の関係を実験していました。1つわかったことは、サンプルサイズや誤差の分散に関係なく、モデルを当てはめると常に勾配が正確にになることです。111 E R R O R S〜 β0+ β1× のR eはsはiはdのU LのSerrors∼β0+β1×residuals {\rm errors} \sim \beta_0 + \beta_1 \times {\rm residuals} これが私がやっていたシミュレーションです: n <- 10 s <- 2.7 x <- rnorm(n) e <- rnorm(n,sd=s) y <- 0.3 + 1.2*x + e model <- lm(y ~ x) r <- model$res summary( …

2
線形混合モデルの分散の残差診断と均一性
この質問をする前に、私は私たちのサイトを検索しましたし、同様の質問の多くを見つけ、(のようにここでは、ここでは、とここ)。しかし、これらの関連する質問は十分に対応または議論されていないと感じているため、この質問を再度提起したいと思います。こういう質問をもっとわかりやすく説明してほしいという聴衆がたくさんいると思います。 私の質問については、第一の線形混合効果モデルを考慮し、、線形固定効果成分である、対応する追加の設計行列でランダム効果パラメータ、。また、は通常のエラー項です。y=Xβ+Zγ+ϵy=Xβ+Zγ+ϵ \mathbf{y = X\boldsymbol \beta + Z \boldsymbol \gamma + \boldsymbol \epsilon} ZXβXβX\boldsymbol \betaZZ\mathbf{Z}ε 〜N (0 、σ 2 I)γγ\boldsymbol \gammaϵ ∼ N(0,σ2I)ϵ ∼ N(0,σ2I)\boldsymbol \epsilon \ \sim \ N(\mathbf{0, \sigma^2 I}) 唯一の固定効果因子は、3つの異なるレベルを持つカテゴリカル変数Treatmentであると仮定します。そして、唯一の変量効果因子は変数Subjectです。とはいえ、固定治療効果とランダムな被験者効果を持つ混合効果モデルがあります。 私の質問はこうです: 従来の線形回帰モデルと同様に、線形混合モデル設定に分散の仮定の均一性はありますか?もしそうなら、上記の線形混合モデル問題の文脈において、仮定は具体的に何を意味しますか?評価する必要がある他の重要な仮定は何ですか? 私の考え:はい。仮定(つまり、エラーゼロ平均、および分散が等しい)は、まだここからです:。従来の線形回帰モデルの設定では、「エラーの分散(または従属変数の分散のみ)は、3つの処理レベルすべてにわたって一定である」と仮定できます。しかし、混合モデル設定でこの仮定をどのように説明できるか迷っています。「分散は被験者の条件付けの3つのレベルで一定ですか?」ϵ ∼ N(0,σ2I)ϵ ∼ N(0,σ2I)\boldsymbol \epsilon \ \sim \ N(\mathbf{0, \sigma^2 I}) 残差と影響力診断に関するSASのオンラインドキュメント二つの異なる残差を育て、すなわち、限界残差、と条件付き残差、 私の質問は、2つの残差は何に使用されるのですか?それらをどのように使用して、均質性の仮定を確認できますか?私には、モデルのに対応しているため、均一性の問題に対処するために限界残差のみを使用できます。ここでの私の理解は正しいですか? R …

1
従属変数をログ変換しました。LOGリンク機能でGLM正規分布を使用できますか?
一般化線形モデル(GLM)について質問があります。私の従属変数(DV)は連続的で、正常ではありません。だから私はそれをログに変換しました(まだ正常ではありませんが改善されました)。 DVを2つのカテゴリ変数と1つの連続共変数に関連付けます。このため、GLMを実施したい(私はSPSSを使用しています)が、選択する分布と機能をどのように決定するかわかりません。 Leveneのノンパラメトリック検定を実施し、分散の均一性があるため、正規分布を使用する傾向があります。線形回帰の場合、データは正常である必要はなく、残差はそうであると私は読みました。そのため、各GLMからの線形予測子の標準化されたピアソン残差と予測値を個別に出力しました(GLMの通常の同一性関数と通常の対数関数)。私は、正規性テスト(ヒストグラムとShapiro-Wilk)を実行し、予測値に対して残差をプロットしました(ランダム性と分散をチェックするため)。恒等関数の残差は正常ではありませんが、対数関数の残差は正常です。ピアソン残差は正規分布しているため、ログリンク関数で正規を選択する傾向があります。 だから私の質問は: すでにログ変換されているDVで、LOGリンク機能を備えたGLM正規分布を使用できますか? 正規分布を使用して正当化するには、分散均一性検定で十分ですか? 残差チェック手順は、リンク関数モデルの選択を正当化するために正しいですか? 左側はDV分布の画像、右側はログリンク関数を使用したGLM正規分布の残差。


2
影響力のある残差と外れ値
まず、私はこのサイトで答えを検索したことを述べなければなりません。私の質問に答える質問が見つからなかったか、知識レベルが非常に低いため、すでに回答を読んでいることに気づきませんでした。 AP統計試験のために勉強しています。線形回帰を学ぶ必要があり、トピックの1つは残差です。253ページに統計とデータ分析の概要のコピーがあります。 2変量データセットの異常な点は、散布図の他のほとんどの点から方向または方向のいずれかに離れている点ですyバツxxyyy 観測値は、残りのデータから離れた(方向の残りのデータから分離された)値を持っている場合、潜在的に影響力のある観測値です。観測が実際に影響力があるかどうかを判断するために、この観測の削除が最小二乗ラインの勾配または切片の値に大きな影響を与えるかどうかを評価します。xバツxxバツxx 観測値に大きな残差がある場合、観測値は異常値です。外れ値の観測値は、最小二乗線から方向に大きく離れています。yyy Stattreck.comは、残差から外れ値を決定する4つの方法を述べています。 全体的なパターンから大きく逸脱するデータポイントは、外れ値と呼ばれます。データポイントを外れ値と見なす方法は4つあります。 他のデータポイントと比較して、極端なX値になる可能性があります。 他のデータポイントと比較して、極端なY値を持つ可能性があります。 X値とY値が極端になる可能性があります。 極端なXまたはY値がなくても、他のデータから離れている可能性があります。 これらの2つのソースは互いに競合しているようです。誰かが私の混乱を片付けてくれませんか。また、どのように極端を定義しますか。AP統計では、データポイントが(Q1-1.5IQR、Q3 + 1.5IQR)の外にある場合、ルールが使用されます。これは異常値です。残差のグラフだけからそれを適用する方法がわかりません。


1
観察された対立遺伝子頻度は予測よりも大幅に少ないですか?
質問:観察された「山」対立遺伝子頻度(図1)が生態学的選択モデル(詳細は以下を参照)によって予測された(図2)よりも中央から南部の山で著しく低いかどうかを判断するテストを構築するにはどうすればよいですか? 問題:私の最初の考えは、緯度:経度と高度に対してモデルの残差を回帰することでした(これにより、緯度と経度の間の相互作用のみが重要になります)。問題は、残差(図3)がモデルによって説明されない変動を反映していること、および/またはそれらが生物学的に起こっていることである、たとえば対立遺伝子がそのポテンシャルまで南に広がる時間がない、または遺伝子の流れに対する何らかの障壁があることです。観測された(図1)と予想された(図2)の山アレル頻度を比較すると、特にスウェーデンとノルウェーの中央から南部の山では明らかな違いがあります。モデルがすべてのバリエーションを説明しない可能性があることは認めますが、山岳対立遺伝子が中部山脈から南部山脈でその可能性に達していないという考えを調査するための合理的なテストを考え出すことはできますか? バックグラウンド:私はバイアレルAFLPマーカーを持っています。その頻度分布は、スカンジナビア半島の低地生息地と山(および緯度:経度)に関連しているようです(図1)。「山」対立遺伝子は、山岳地帯である北部でほぼ固定されています。それは山が欠けている南の「低地」対立遺伝子のためにほとんど欠けているか固定されています。山の中を北から南に移動すると、「山」対立遺伝子はより低い頻度で発生します。北から南への「山」対立遺伝子頻度のこの違いは、地域が北と南の両方から植民地化されたため、単純に系統地理学または歴史的プロセスが原因である可能性があります。たとえば、山岳対立遺伝子が北部の人口に由来する場合、おそらく南部の人口に完全に拡大する時間がありませんでした。 私の作業仮説は、「山」対立遺伝子頻度が生態学的選択の結果であるというものです(帰無仮説は中立選択です)。 私の生態学的選択モデルでは、応答変数として二項対立遺伝子頻度(通常、各サイトで10から20の個体がサンプリングされたフェノスカンジナビア全体で129のサイトでサンプリング)と、いくつかの気候および成長期変数を使用して、一般化加法モデル(GAM)を使用しました。予測変数。モデルの結果は次のとおりです(TMAX04-06 = 4月から6月の最高気温、Phen_NPPMN =平均成長期の植生生産性、PET_HE_YR =年間の潜在的な蒸発散量、Dist_Coast =海岸までの距離): Family: binomial Link function: logit Formula: Binomial_WW1 ~ s(TMAX_04) + s(TMAX_05) + s(TMAX_06) + s(Phen_NPPMN) + s(PET_HE_YR) + s(Dist_Coast) Parametric coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.74372 0.04736 -15.7 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ …

3
ロジスティック回帰の残差とクックの距離
エラー項の一定分散や残差の正規性など、ロジスティック回帰のエラーに関する特定の仮定はありますか? また、通常、クックの距離が4 / nより大きいポイントがある場合、それらを削除しますか?それらを削除した場合、削除されたポイントを含むモデルの方が優れているかどうかをどのように判断できますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.