タグ付けされた質問 「heteroscedasticity」

ランダムなプロセスでのいくつかの連続体に沿った非一定の分散。

1
ショットノイズのある線形回帰
次の問題を説明するための適切な統計用語を探しています。 線形応答を持つ電子機器を特徴づけたい Y= β0+ β1バツ+ ϵY=β0+β1X+ϵY = \beta_0 + \beta_1 X + \epsilon ここで、は、デバイスの読み出しノイズによる項です。決定するために Iは、一連の応答を測定することになる標準線形回帰ツールボックスを適用します。しかし、ショットノイズの影響を受けるソースを使用しているため、が正確に何であるかわかりません。つまり、ソースのダイヤルを特定の値に設定すると、(平均および分散ガウスになることはわかっています。β 0、β 1、σ 2 R O { X I、Y I } X I J I X 、I〜N (μ 、μ )μ με 〜N(0 、σ2R O)ϵ∼N(0,σro2)\epsilon \sim N(0,\sigma^2_{ro})β0、β1、σ2R Oβ0,β1,σro2\beta_0, \beta_1, \sigma^2_{ro}{ X私、Y私}{Xi,Yi}\{X_i,Y_i\}バツ私XiX_iJ私JiJ_iバツ私〜N(μ 、μ )Xi∼N(μ,μ)X_i \sim N(\mu, \mu)μμ\muμμ\mu これは、線形回帰の変数内エラーモデル(http://en.wikipedia.org/wiki/Errors-in-variables_models)のように見えますが、入力範囲全体でデバイスを特徴付けるためではありません。 …

3
異質性/異分散性の説明に関するアドバイス
私の部門の生物学者に異質性/異分散性を説明する方法についてのヘルプ、アドバイス、またはヒントを探しています。特に、なぜそれを探し、それが存在する場合はそれに対処することが重要である理由を説明したいのですが、私は次の質問についての意見を探していました。 異質性は変量効果推定の信頼性に影響を与えますか?確かにあると思いますが、論文が見つかりませんでした。 異質性はどれほど深刻な問題ですか?私はこれについて矛盾する見解を発見しましたが、モデルの標準エラーなどは信頼できないと言う人もいますが、異質性が深刻な場合にのみ問題であることも読みました。重症度はどれくらいですか? 異質性のモデリングに関するアドバイス。現在、私は主にRのnlmeパッケージと分散共変量の使用に焦点を当てています。これはかなり簡単で、ここでほとんどの人がRを使用しているため、スクリプトを提供すると便利です。私はMCMCglmmパッケージも使用していますが、他の提案、特に通常でないデータについては歓迎します。 その他の提案は大歓迎です。

2
異分散性がある場合に、ロバスト線形回帰またはブートストラップを使用するかどうか。
線形回帰を行う必要があるデータセットがあります。残念ながら、異分散性に問題があります。分散のHC3推定器を使用したロバスト回帰を使用して分析を再実行し、Hmisc for Rのbootcov関数を使用してブートストラップを実行しました。結果は非常に近いです。一般的に推奨されるものは何ですか?

1
Breusch-Pagan検定による同等分散性の検定
最近では、Breusch-Paganと協力して同等分散性をテストしています。 私はこの方法で2つの株の価格をテストしました。これが結果です: > mod <- lm(prices[,1] ~ prices[,2]) > bp <- bptest(mod) > bp studentized Breusch-Pagan test data: prices[, 1] ~ prices[, 2] BP = 0.032, df = 1, p-value = 0.858 結果を読み取ると、系列は等分散性になるはずですが、残差と二乗残差をプロットすると、完全にそうではありません!以下を見てください: 残差と以下の組み合わせ: このシリーズが非常に高いp値でテストに合格する可能性はありますか?

2
線形回帰、異分散性、ホワイトのテスト解釈?
私の回帰に異分散性の問題があるかどうかをテストしようとしています。回帰を実行した後、残差プロットにパターンがあることがはっきりとわかります。従属変数のログを取った後、パターンは大幅に減少します。元の式のホワイトのテストでは、変換前にp値0.0004(残差に強いパターンがあるモデル)が返され、対数変換後にp値0.08が返されます。 2番目のモデルの方がプロットの不均一性が少ないことがわかりますが、ホワイトの検定の結果をどのように解釈すればよいですか?最初の値は、(100-0.0004)%の有意性で異分散性があることを拒否できることを意味しますが、2番目のモデルでは、たとえば95%の信頼性でそれを拒否できますか?

2
線形回帰で、なぜ生の最小二乗残差が不均一になるのですか?
異分散性の検出に関する回帰コースに関する私のコースノートでは、次の引用があります。 「最小二乗残差は、等分散性の場合でも不均等な分散を持っているため、標準化された残差を使用することが望ましいです。」 私の直感は、LS回帰直線は必ずデータクラウドの中心を通るので、尾よりも共変量空間の中央の点により適しているため、極端な分散が大きくなることを教えてくれます。 これにもかかわらず、これはそれが必要であるとは思われません。それと同時に、標準化された、またはスチューデント化された残差の等分散性を考慮し、生の残差を考慮しないのはなぜですか。


1
線形回帰のホモセダスティシティ仮定対スチューデント化された残差の概念
スチューデント化された残差について読みましたが、予測子の特定の値を条件として、さまざまな残差分散の考え方が理解できません。 XXX (スチューデント化された残差の概念によって暗示されるように)は、単一の予測子変数を使用する線形回帰モデルにおける等分散性の仮定と本質的に矛盾していません。 それは私の教科書で、等分散性の仮定は、 YYY (従属変数)条件付き X=xX=xX = x(独立予測変数の特定の実現)は、この予測変数の値の範囲全体で一定です。この条件付き分散は、残差変数の条件付き分散にも等しいと言いますεε\varepsilon 与えられた xxx。私の理解では、これは人口レベルでの発言です。まとめると、次のようになります。 Var(Y|X)=Var(ε|X)=σ2εVar(Y|X)=Var(ε|X)=σε2Var(Y|X) = Var(\varepsilon|X) = \sigma^2_\varepsilon 後でこの本は、従属変数の外れ値の検出を扱い、標​​準化およびスチューデント化された残差の使用を提案しています。標準化された残差は個々の残差ですεiεi\varepsilon_i 推定標準偏差で割った σ^εσ^ε\hat\sigma_\varepsilon母集団の残差変数の。標準化された残差の場合、各残差εiεi\varepsilon_i したがって、同じ定数値を使用して標準化されます σ^εσ^ε\hat\sigma_\varepsilon 等分散性を仮定できる場合: Stand.Resi=εiσ^εStand.Resi=εiσ^εStand.Res_i = \frac{\varepsilon_i}{\hat\sigma_\varepsilon}。 ただし、次の段落では、スチューデント化された残差が導入されています。本は言う: "残差の推定の精度が距離とともに増加することを示すことができますxixix_i その平均から x¯x¯\bar x。スチューデント化された残差の場合、残差はその推定標準誤差全体ではなく、その場所での残差の推定標準偏差で除算されます。xixix_i。この標準偏差は、次の式から取得できます。 Student.Resi=εiσ^ε⋅1−hi√Student.Resi=εiσ^ε⋅1−hiStudent.Res_i = \frac{\varepsilon_i }{\hat\sigma_\varepsilon \cdot \sqrt {1-h_i}} と hihih_i (この単純な場合:単数)予測子のレバレッジスコア xixix_i。したがって、この場合、残差はすべて同じ定数値で除算されるのではなく(標準化された残差の場合のように)、代わりにてこ比の値に依存する残差標準誤差の分布があるように見えます。このサイトの他の質問で説明されているように、これらのレバレッジ値は予測変数の両端で大きくなります。ウィキペディア(https://en.wikipedia.org/wiki/Errors_and_residuals#Regressions)には次のように書かれています: 回帰分析では、エラーと残差の区別は微妙で重要であり、スチューデント化された残差の概念につながります。独立変数を従属変数に関連付ける観測できない関数(たとえば、線)がある場合、この関数からの従属変数の観測値の偏差は観測できないエラーです。一部のデータに対して回帰を実行する場合、フィットされた関数からの従属変数の観測値の偏差は残差です。[...]ただし、回帰プロセスの動作により、エラー自体が同じように分布していても、(入力変数の)異なるデータポイントでの残差の分布は異なる場合があります。具体的には、誤差が同じように分布する線形回帰では、ドメインの中央にある入力の残差の変動性は、ドメインの端にある残差の変動性よりも高くなります[必要な引用]:線形回帰は、中央よりも良いエンドポイントに適合します。これは、回帰係数のさまざまなデータポイントの影響関数にも反映されます。エンドポイントの影響が大きくなります。 これは直感的に私には理にかなっていますが、それが同等分散性の仮定に矛盾しないことを私はよく理解していません。これは、母集団レベルでは、エラー分散がすべてのレベルで等しくなる可能性があるためです。XXX しかし、回帰直線をあてはめて誤差分散を推定すると(母集団レベルでの誤差の推定値として残差を使用できるように)、次の条件の残差標準偏差の分布が自動的かつ人工的に作成されます。 XXXその残差標準偏差をすべての残差の等しい特異値にする代わりに?つまり、標準化された残差は、(観測不能な)母集団レベルでのみ本当に有用であることを意味しますよね?与えられたサンプルについて、標準化された残差は、すべての値の正確な推定量になる可能性があるためですxixix_i 遠い x¯x¯\bar x 単に回帰モデルが当てはまる方法のためですか? ただし、そうである場合、予測変数に対してスチューデント化された残差をプロットし、残差の分散が …

1
線形モデルにおける従属変数の異分散性と分布
私は、多変量olsモデルを実行しています。ここで、従属変数は食品消費スコアであり、特定の食品カテゴリの消費発生の加重和によって作成されたインデックスです。 モデルのさまざまな仕様を試し、予測子をスケーリングまたは対数変換しましたが、Breusch-Paganテストは常に強い不均一分散を検出します。 変数が省略される通常の原因は除外します。 特にログのスケーリングと正規化の後、外れ値は存在しません。 私はPolychoric PCAを適用して作成された3/4インデックスを使用していますが、OLSからそれらの一部またはすべてを除外しても、Breusch-Pagan出力は変更されません。 モデルで使用されるダミー変数はごくわずかです(通常)。性別、婚姻状況。 各領域のダミーを含めて制御し、ads-R ^ 2の点で異分散性領域を20%増やしても、サンプルの領域間で発生する高度の変動を検出します。 サンプルには20,000の観測があります。 問題は私の従属変数の分布にあると思います。私が確認できた限り、正規分布は私のデータの実際の分布の最も近い近似です(おそらく十分に近くないかもしれません)ここで、従属変数を正規化し、対数変換した赤の2つのqqプロットをそれぞれここに添付します通常の理論分位数)。 私の変数の分布を考えると、不均一性は従属変数の非正規性によって引き起こされる可能性があります(モデルのエラーに非正規性を引き起こしますか?) 従属変数を変換する必要がありますか?glmモデルを適用する必要がありますか?-私はglmで試しましたが、BPテストの出力に関しては何も変更されていません。 グループ間の変動を制御し、不均一分散(ランダムインターセプト混合モデル)を取り除くより効率的な方法はありますか? 前もって感謝します。 編集1: 私は食物消費スコアの技術マニュアルをチェックしましたが、通常、指標は「正規に近い」分布に従うと報告されています。実際、Shapiro-Wilk Testは、変数が正規分布であるという帰無仮説を拒否します(最初の5000 obsでテストを実行できました)。残差に対するフィッティングのプロットからわかるのは、フィッティングの値が低い場合、エラーの変動性が減少することです。以下にプロットを添付します。プロットは、線形混合モデル、正確には398の異なるグループを考慮したランダムインターセプトモデルから得られます(相互相関係数= 0.32、グループの平均解放は0.80以上)。私はグループ間の変動性を考慮に入れましたが、異分散性はまだあります。 また、さまざまな分位回帰を実行しました。私は特に0.25分位点の回帰に関心がありましたが、誤差の等分散に関しては改善がありませんでした。 私は今、ランダムな切片の分位点回帰を当てはめることによって、分位点とグループ(地理的領域)の間の多様性を同時に考慮することを考えています。良いアイデアかもしれませんか? さらに、ポアソン分布は、変数の値が低い場合でも少し(通常より少し小さい)変動しても、私のデータの傾向に従っているように見えます。ただし、問題は、ポアソンファミリのglmをフィッティングするには正の整数が必要であり、私の変数は正の値ですが、整数のみではありません。したがって、glm(またはglmm)オプションを破棄しました。 編集2: あなたの提案のほとんどは、堅牢な推定量の方向に行きます。しかし、それは解決策の1つにすぎないと思います。データの不均一性の理由を理解すると、モデル化する関係の理解が向上します。エラー分布の底部で何かが起こっていることは明らかです-OLS仕様からのこの残差のqqplotを見てください。 この問題にさらに対処する方法について何か考えが思い浮かびますか?分位点回帰でさらに調査する必要がありますか? 問題が解決しました ? あなたの提案に従って、私は最終的にランダムなインターセプトモデルトリングを実行して、技術的な問題を私の研究分野の理論に関連付けました。モデルのランダムな部分に含まれていると、誤差項が等分散性になる変数が見つかりました。ここに私は3つのプロットを投稿します: 1つ目は、34グループ(州)のランダムインターセプトモデルから計算されます。 2つ目は、34のグループ(地域)を持つランダム係数モデルからのものです。 最後に、3番目は、398個のグループ(地区)を持つランダム係数モデルの推定結果です。 前回の仕様では、不等分散性を制御していると言っていいでしょうか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.