タグ付けされた質問 「residuals」

モデルの残差は、実際の値から予測値を引いたものです。多くの統計モデルは、残差によって推定されるエラーについての仮定を行います。

1
残差のどのようなフィット後分析を使用しますか?
OLS多重線形回帰を実行する場合、近似値に対して残差をプロットするのではなく、(内部)スチューデント化残差を近似値に対してプロットします(共変量の場合も同様)。これらの残差は次のように定義されます。 e∗i=eis2(1−hii)−−−−−−−−−√ei∗=eis2(1−hii)\begin{equation} e^*_i = \frac{e_i}{\sqrt{s^2 (1-h_{ii})}} \end{equation} ここで、は残差、h i iはハット行列の対角要素です。Rでこれらのスチューデント化された残差を取得するには、コマンドを使用できます。eieie_ihiihiih_{ii}rstandard この文脈で人々が日常的に使用する残差のタイプは何ですか?たとえば、だけを使用するのか、それともジャックナイフ残差を使用するのか、それとも完全に別のものを使用するのか。eieie_i 注:誰も使用しない新しいタイプの残差を定義する論文にはあまり興味がありません。

2
なぜ残差を使用して回帰のエラーに関する仮定をテストするのですか?
我々はモデルがあるとYi=β0+β1Xi1+β2Xi2+⋯+βkXik+ϵiYi=β0+β1Xi1+β2Xi2+⋯+βkXik+ϵiY_i = \beta_0 + \beta_1X_{i1} + \beta_2X_{i2} + \dots + \beta_kX_{ik} + \epsilon_i。 回帰には、誤差ϵiϵi\epsilon_iが平均ゼロと一定の分散で正規分布する必要があるなど、いくつかの仮定があります。私は、残差の正規性テストに通常のQQプロットを使用して、これらの仮定を確認するために教えられてきたei=Yi−Y^iei=Yi−Y^ie_i = Y_i - \hat{Y}_iとフィットプロット対残差は残差が一定の分散をゼロ付近変化することを確認すること。 ただし、これらのテストはすべて誤差ではなく残差に対して行われます。 私が理解していることから、エラーは各観測値の「真の」平均値からの偏差として定義されています。そこで、我々は書くことができϵi=Yi−E[Yi]ϵi=Yi−E[Yi]\epsilon_i = Y_i - \mathbb{E}[Y_i]。これらのエラーは、弊社では確認できません。* 私の質問はこれです:残差はエラーを模倣するのにどれほど良い仕事ですか? 残差で仮定が満たされているように見える場合、これは誤差でも仮定が満たされていることを意味しますか?モデルをテストデータセットに適合させ、そこから残差を取得するなど、他の(より良い)仮定をテストする方法はありますか? *さらに、モデルを正しく指定する必要はありませんか?これは、応答が本当に予測因子との関係を持っていること、であるX1,X2,X1,X2,X_1, X_2,モデルによって指定された方法でなど。 我々はいくつかの予測子含まれていない場合(例えば、、次に期待値)E [ Y I ] = β 0 + β 1 X I 1 + β 2 X I 2 + ⋯ …

1
外れ値と外れ値の違い
私は、LOFメジャー(Local Outlier Factor)で「inlier」という用語に出会いましたが、「outliers」という用語に精通しています(基本的にはliers-他のインスタンスとして動作しないインスタンス)。 異常検出のコンテキストで「インライア」とはどういう意味ですか?そしてそれはどのように外れ値と(異なる)関係があるのですか?

1
lmモデルのスチューデント化された残差対標準化された残差
「学習された残差」と「標準化された残差」は回帰モデルで同じですか?Rで線形回帰モデルを構築し、スチューデント化された残差v / s近似値のグラフをプロットしたいのですが、Rでこれを行う自動化された方法が見つかりませんでした。 モデルがあるとしましょう library(MASS) lm.fit <- lm(Boston$medv~(Boston$lstat)) 次に、を使用plot(lm.fit)しても、スチューデント化された残差と近似値のプロットは提供されませんが、標準化された残差と近似値のプロットは提供されます。 私はplot(lm.fit$fitted.values,studres(lm.fit)それを使用して、目的のグラフをプロットします。したがって、正しい方向に進んでいて、スチューデント化された残差と標準化された残差が同じではないことを確認したいだけです。それらが異なる場合は、それらとそれらの定義を計算するためのガイドを提供してください。ネットを検索したところ、少しわかりにくいことがわかりました。

3
残差のブートストラップ:私はそれを正しく行っていますか?
まず、 私が理解したことから、残差のブートストラップは次のように機能します。 モデルをデータに合わせる 残差を計算する 残差を再サンプリングし、それらを1に追加します。 モデルを3からの新しいデータセットに適合させます。 n時間を繰り返しますが、常にリサンプリングされた残差を1からの近似に追加します。 これまでのところ正しいですか? 私がやりたいことは少し違うものです: 環境変数を推定するアルゴリズムのパラメーターと予測の不確実性を推定したい。 私が持っているのは、その変数の(シミュレーションからの)エラーのない時系列です。合成データセットを生成するために、x_trueそれにノイズを追加します。次に、アルゴリズムを二乗和(!ではなく!)を目的関数としてフィッティングして、最適なパラメーターを見つけようとします。アルゴリズムの動作を確認し、パラメーターの分布のサンプルを作成するために、を再サンプリングし、それをに追加し、モデルを再度フィッティングし、リンスして繰り返します。それはパラメータの不確実性を評価するための有効なアプローチですか?ブートストラップされたデータセットへの適合を予測の不確実性として解釈できますか、それとも上に投稿した手順に従う必要がありますか?x_noisexsum((x_estimate - x_true)^2)x_estimate - xx_noisex_true / edit:私は自分のモデルが何をしているのか明確にしていないと思います。それは本質的にノイズ除去方法のようなものと考えてください。これは予測モデルではなく、ノイズの多い時系列の環境データの根本的な信号を抽出しようとするアルゴリズムです。 / edit ^ 2:そこにいるMATLAB-Usersのために、私が何を意味するのかについての簡単で汚い線形回帰の例を書き留めました。 これは、「通常の」残差のブートストラップが正しいと私が信じていることです(間違っている場合は修正してください):http : //pastebin.com/C0CJp3d1 これは私がしたいことです:http://pastebin.com/mbapsz4c

2
左スキューと対称分布の観察
これを説明するのはかなり難しいですが、問題を理解できるようにしようと思います。したがって、最初に、これまで非常に単純な線形回帰を行ったことを知っておく必要があります。係数を推定する前に、分布を観察しました。左に曲がって重いです。モデルを推定した後、QQ-Plotに左スキューの残差が確かにあるのを確認できましたが、絶対に確認できませんでした。このソリューションの理由は何でしょうか?間違いはどこですか?または、分布はエラー項の分布とは関係ありませんか?yyyyyy

3
他のリグレッサのロジスティック回帰残差の回帰
OLS回帰を連続応答に適用すると、各共変量の残差の回帰を順次実行することにより、重回帰方程式を構築できます。私の質問は、ロジスティック回帰の残差を介したロジスティック回帰でこれを行う方法はありますか? 私は推定したい場合には、あるPr (Y= 1 | x 、z)Pr(Y=1|x,z)\Pr(Y = 1 | x, z)アプローチをモデル化線形一般化標準を使用して、反対ロジスティック回帰を実行するための方法がありバツxxおよび擬似残差が得るR1R1R_1、その後、後退R1R1R_1上zzzロジスティック回帰係数の不偏推定量を取得します。教科書や文献への参照をいただければ幸いです。

4
線形モデルを近似した後、近似した残差をバイアスと分散に分解することは可能ですか?
データポイントを、より複雑なモデルが必要か、より複雑なモデルが不要かで分類したいと思います。私の現在の考えは、すべてのデータを単純な線形モデルに当てはめ、残差のサイズを観察してこの分類を行うことです。次に、エラーへのバイアスと分散の寄与についていくつかの読み取りを行い、バイアスを直接計算できれば、合計エラー(残差または標準化残差)を処理するよりも適切な測定になる可能性があることに気付きました。 線形モデルでバイアスを直接推定することは可能ですか?テストデータの有無は?ここで相互検証は役立ちますか? そうでない場合は、線形モデルの平均ブートストラップアンサンブル(バギングと呼ばれると思います)を使用してバイアスを概算できますか?

2
残差は根本的な障害とどのように関連していますか?
最小二乗法では、モデルの未知のパラメーターを推定します。 Yj=α+βxj+εj(j=1...n)Yj=α+βxj+εj(j=1...n)Y_j = \alpha + \beta x_j + \varepsilon_j \enspace (j=1...n) (いくつかの観測値について)それを実行すると、近似回帰直線が得られます。 Yj=α^+β^x+ej(j=1,...n)Yj=α^+β^x+ej(j=1,...n)Y_j = \hat{\alpha} + \hat{\beta}x +e_j \enspace (j =1,...n) ここで明らかに、いくつかのプロットをチェックして、仮定が満たされていることを確認します。等分散性をチェックしたいとしますが、これを行うには、実際には残差チェックしています。残差対予測値のプロットを調べて、不等分散性が明らかであることがわかった場合、それが外乱項とどのように関係しているのでしょうか。残差の異分散性は、外乱条件の異分散性を意味しますか? ε Jejeje_jεjεj\varepsilon_j

2
負の二項回帰のピアソンの残差が、ポアソン回帰の残差よりも小さいのはなぜですか?
私はこれらのデータを持っています: set.seed(1) predictor <- rnorm(20) set.seed(1) counts <- c(sample(1:1000, 20)) df <- data.frame(counts, predictor) ポアソン回帰を実行しました poisson_counts <- glm(counts ~ predictor, data = df, family = "poisson") そして負の二項回帰: require(MASS) nb_counts <- glm.nb(counts ~ predictor, data = df) 次に、ポアソン回帰の分散統計を計算しました。 sum(residuals(poisson_counts, type="pearson")^2)/df.residual(poisson_counts) # [1] 145.4905 そして負の二項回帰: sum(residuals(nb_counts, type="pearson")^2)/df.residual(nb_counts) # [1] 0.7650289 式を使用せずに、負の二項回帰の分散統計がポアソン回帰の分散統計よりもかなり小さい理由を誰かが説明できますか?

1
正規性をテストするとき、残差の相関が重要ではないのはなぜですか?
とき(すなわち、Yは、線形回帰モデルから来ている)、 ε 〜N(0 、σ 2 I )Y= A X+ εY=AX+εY = AX + \varepsilonYYY その場合には、残差 eは 1、... 、E N相関と独立していません。我々は回帰診断を行うと仮定テストしたいときには ε 〜N(0 、σ 2 I )、すべての教科書には、Q-Qプロットと残差の統計的検定を使用することが提案されている電子かどうかをテストするために設計された電子〜N(0 、σ 2 I )のためのいくつかの σ 2 ∈ R。ε 〜N(0 、σ2私)⇒e^= (私− H)Y〜N(0 、(私− H)σ2)ε∼N(0,σ2I)⇒e^=(I−H)Y∼N(0,(I−H)σ2)\varepsilon \sim \mathcal{N}(0, \sigma^2 I) \hspace{1em} \Rightarrow \hspace{1em} \hat{e} = (I - …

2
カテゴリー名義変数間のカテゴリー間の相関
2つのカテゴリー名義変数(両方とも5つのカテゴリー)を持つデータセットがあります。これらの2つの変数からカテゴリ間の潜在的な相関関係を特定できるかどうか(およびその方法)を知りたいのですが。 言い換えると、たとえば変数1のカテゴリの結果が変数2の特定のカテゴリと強い相関を示すかどうか。5つのカテゴリを持つ2つの変数があるため、すべてのカテゴリの相関分析の合計は25の結果になります。 (少なくともそれが私が望むように/期待するように機能する場合)iiijjj 私は問題を具体的な質問に定式化しようとしました: 質問1:カテゴリ変数を値(カテゴリ)ごとに5つの異なるダミー変数に転送するとします。これと同じ手順を2番目の変数に対しても実行します。次に、ダミーの1.iと2.i(たとえば)の相関関係を調べたいと思います。通常の相関係数手順を使用してこの手順を実行するのは統計的に正しいですか?この手順から得られる相関係数は、2つのダミー変数間の相関関係について適切な洞察を提供しますか? 質問2:質問1で説明されている手順が有効な手順である場合、この分析を2つ(またはそれ以上)のカテゴリ名義変数のすべてのカテゴリに対して一度に実行する方法はありますか? 私が使用しているプログラムはSPSS(20)です。

4
ノンパラメトリック回帰を使用するのはいつですか?
SASでPROC GLMを使用して、次の形式の回帰方程式を当てはめています Y= b0+ b1バツ1+ b2バツ2+ b3バツ3+ b4tY=b0+b1バツ1+b2バツ2+b3バツ3+b4t Y = b_0 + b_1X_1 + b_2X_2 + b_3X_3 + b_4t 結果の赤残差のQQプロットは、正規性からの逸脱を示します。変換は、残差を正規化するのに役立ちません。YYY この時点で、PROC LOESSなどのノンパラメトリックメソッドに安全に切り替えられますか? 私はすでにPROC LOESSを使用しており、PROC GLMよりフィット感が良く見えます。しかし、私はノンパラメトリック回帰についてはあまり知識がありません。パラメトリック回帰よりもノンパラメトリック回帰をいつ選択するかわかりません。 誰かがこれを手伝ってくれる? 先に進み、別の質問を追加します。以下は、モデル内の変数の説明です。 時々、負の予測コストを受け取ります。これは意味がありません。この問題にどのように対処できますか?Y= 医療費バツ1= 注射回数バツ2= 手術の数バツ3= 理学療法の数t = 時間Y=医療費バツ1=注射回数バツ2=手術の数バツ3=理学療法の数t=時間 Y =\text{cost of medical care}\\ X_1 =\text{number of injections}\\ X_2 =\text{number of surgeries}\\ X_3 =\text{number of …



弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.