タグ付けされた質問 「heteroscedasticity」

ランダムなプロセスでのいくつかの連続体に沿った非一定の分散。

2
これら2つのBreusch-Paganテストの違いは何ですか?
一部のデータでRを使用し、データが不均一であるかどうかを確認しようとしたところ、Breusch-Paganテストの2つの実装、bptest(パッケージlmtest)とncvTest(パッケージcar)が見つかりました。ただし、これらの結果は異なります。2つの違いは何ですか?どちらを使用するかをいつ選択すべきですか? > model <- lm(y ~ x) > bp <- bptest(model) > bp studentized Breusch-Pagan test data: model BP = 3.3596, df = 1, p-value = 0.06681 > ncvTest(model) Non-constant Variance Score Test Variance formula: ~ fitted.values Chisquare = 3.858704 Df = 1 p = 0.04948855 これらの例は、テストによると、私のデータはある場合には異分散性であり、別の場合には同分散性であることを示しています。ここでこの質問を見つけたので、bptestが学生化されている可能性があり、ncvTestはそうではない可能性がありますが、これはどういう意味ですか?

3
回帰係数のこのバイアス分散のトレードオフとは何ですか?
この論文、(分散コンポーネントのベイズ推論はコントラストエラーのみ使用し、著者の主張、Harville、1974) は「よく知られている」関係」、線形回帰の場合 ここで Y = X β(y−Xβ)′H−1(y−Xβ)=(y−Xβ^)′H−1(y−Xβ^)+(β−β^)′(X′H−1X)(β−β^)(y−Xβ)′H−1(y−Xβ)=(y−Xβ^)′H−1(y−Xβ^)+(β−β^)′(X′H−1X)(β−β^)(y-X\beta)'H^{-1}(y-X\beta)=(y-X\hat\beta)'H^{-1}(y-X\hat\beta)+(\beta-\hat\beta)'(X'H^{-1}X)(\beta-\hat\beta)ε 〜N(0 、H )。y=Xβ+ϵ,y=Xβ+ϵ,y=X\beta+\epsilon,ϵ∼N(0,H).ϵ∼N(0,H).\epsilon\sim\mathcal{N}(0, H). これはどのように有名ですか?これを証明する最も簡単な方法は何ですか?

2
異分散性の下でOLSは漸近的に効率的である
線形回帰設定の不均一性の下では、OLSは公平ではありませんが効率的ではありません。 ウィキペディアで http://en.wikipedia.org/wiki/Minimum_mean_square_error MMSE推定量は漸近的に不偏であり、正規分布に収束します: 、ここでI(x)はxのフィッシャー情報です。したがって、MMSE推定器は漸近的に効率的です。n−−√(x^−x)→dN(0,I−1(x))n(x^−x)→dN(0,I−1(x))\sqrt{n}(\hat{x} - x) \xrightarrow{d} \mathcal{N}\left(0 , I^{-1}(x)\right) MMSEは漸近的に効率的であると主張されています。ここで少し混乱しています。 これは、OLSが有限サンプルでは効率的ではないが、異分散性では漸近的に効率的であることを意味しますか? 現在の回答の批評:これまでのところ、提案された回答は制限的な分布に対処していません。 前もって感謝します

1
二項応答に対する異分散一般化線形モデルのあてはめ
次の実験計画のデータがあります。私の観察はK、対応する試行数()のうち成功した数()の数であり、各個人からN構成される2つのグループに対して測定されたI、T処理からの、そのような各因子の組み合わせにR反復がある。したがって、全体で2 * I * T * R Kと対応するNがあります。 データは生物学からのものです。それぞれの個体は、2つの代替形態(代替スプライシングと呼ばれる現象による)の発現レベルを測定する遺伝子です。したがって、Kは1つの形式の発現レベルであり、Nは2つの形式の発現レベルの合計です。単一の表現されたコピーにおける2つの形式間の選択は、ベルヌーイ実験であると想定されるため、NのうちKコピーは二項式に従います。各グループは約20の異なる遺伝子で構成され、各グループの遺伝子は2つのグループ間で異なるいくつかの共通の機能を持っています。各グループの各遺伝子について、3つの異なる組織(処理)のそれぞれから約30の測定値があります。グループと治療がK / Nの分散に与える影響を推定したいと思います。 遺伝子発現は過剰に分散していることがわかっているため、以下のコードでは負の二項式を使用しています。 たとえば、Rシミュレートされたデータのコード: library(MASS) set.seed(1) I = 20 # individuals in each group G = 2 # groups T = 3 # treatments R = 30 # replicates of each individual, in each group, in each treatment groups = letters[1:G] …

2
残差は根本的な障害とどのように関連していますか?
最小二乗法では、モデルの未知のパラメーターを推定します。 Yj=α+βxj+εj(j=1...n)Yj=α+βxj+εj(j=1...n)Y_j = \alpha + \beta x_j + \varepsilon_j \enspace (j=1...n) (いくつかの観測値について)それを実行すると、近似回帰直線が得られます。 Yj=α^+β^x+ej(j=1,...n)Yj=α^+β^x+ej(j=1,...n)Y_j = \hat{\alpha} + \hat{\beta}x +e_j \enspace (j =1,...n) ここで明らかに、いくつかのプロットをチェックして、仮定が満たされていることを確認します。等分散性をチェックしたいとしますが、これを行うには、実際には残差チェックしています。残差対予測値のプロットを調べて、不等分散性が明らかであることがわかった場合、それが外乱項とどのように関係しているのでしょうか。残差の異分散性は、外乱条件の異分散性を意味しますか? ε Jejeje_jεjεj\varepsilon_j

3
関係が線形か非線形かを確認する統計的検定
次のようなデータセットの例があります。 Volume <- seq(1,20,0.1) var1 <- 100 x2 <- 1000000 x3 <- 30 x4 = sqrt(x2/pi) H = x3 - Volume r = (x4*H)/(H + Volume) Power = (var1*x2)/(100*(pi*Volume/3)*(x4*x4 + x4*r + r*r)) Power <- jitter(Power, factor = 1, amount = 0.1) plot(Volume,Power) この図から、ある範囲の「ボリューム」と「パワー」の間の関係は線形であり、「ボリューム」が比較的小さくなると、関係は非線形になることが示唆されます。これを説明するための統計的検定はありますか? OPへの応答に示されているいくつかの推奨事項に関して: ここに示されている例は単なる例であり、私が持っているデータセットは、ここで見られる関係に似ていますが、騒々しいです。これまでに行った分析では、特定の液体の体積を分析すると、体積が小さいと信号のパワーが大幅に増加することを示しています。つまり、ボリュームが15から20の間の環境しかなかったとしましょう。それは、ほぼ線形の関係のように見えます。ただし、ポイントの範囲を増やす、つまりボリュームを小さくすると、関係がまったく線形にならないことがわかります。これを統計的に示す方法に関する統計的なアドバイスを探しています。これが理にかなっているといいのですが。

3
異分散性と非定常性の概念的な違い
分散性と定常性の概念を区別するのに苦労しています。私が理解しているように、異分散性は部分母集団の変動性が異なり、非定常性は時間の経過とともに変化する平均/分散です。 これが正しい(単純化ではあるが)理解である場合、非定常性は単に、時間の経過に伴う不均一分散の特定のケースですか?

1
条件付き不等分散性を持つ線形モデルの推論
独立変数ベクトルとおよび従属変数を観察するとします。次の形式のモデルに適合させたい: ここでは正の値の2階微分可能関数、は未知のスケーリングパラメーター、はゼロ平均の単位分散ガウス確率変数(から独立していると仮定)および)。これは本質的に、(少なくとも私が理解している限り)Koenkerの異分散性のテストの設定です。x⃗ x→\vec{x}z⃗ z→\vec{z}yyyy=x⃗ ⊤β1→+σg(z⃗ ⊤β2→)ϵ,y=x→⊤β1→+σg(z→⊤β2→)ϵ,y = \vec{x}^{\top}\vec{\beta_1} + \sigma g\left(\vec{z}^{\top} \vec{\beta_2}\right) \epsilon,gggσσ\sigmaϵϵ\epsilonx⃗ x→\vec{x}z⃗ z→\vec{z} 私はの観測値のと、およびIは推定したいと。ただし、いくつか問題があります。nnnx⃗ ,z⃗ x→,z→\vec{x}, \vec{z}yyyβ1→β1→\vec{\beta_1}β2→β2→\vec{\beta_2} 推定問題を最小二乗法のようなものとしてどのように提起するかはわかりません(よく知られたトリックがあると思います)。最初の推測は、 しかし私はそれを数値的に解決する方法がわからない(おそらく、準ニュートン反復法で解決できるかもしれません)。minβ1→,β2→⎛⎝⎜⎜⎜⎜∑i=1n(yi−xi→⊤β1→)2g(zi→⊤β2→)2⎞⎠⎟⎟⎟⎟⎛⎝⎜⎜⎜⎜∑i=1n1g(zi→⊤β2→)2⎞⎠⎟⎟⎟⎟−1,minβ1→,β2→(∑i=1n(yi−xi→⊤β1→)2g(zi→⊤β2→)2)(∑i=1n1g(zi→⊤β2→)2)−1,min_{\vec{\beta_1}, \vec{\beta_2}} \left(\sum_{i=1}^n \frac{\left(y_i - \vec{x_i}^{\top}\vec{\beta_1}\right)^2}{g\left(\vec{z_i}^{\top}\vec{\beta_2}\right)^2}\right)\left(\sum_{i=1}^n \frac{1}{g\left(\vec{z_i}^{\top}\vec{\beta_2}\right)^2}\right)^{-1}, 私が問題をまともな方法で提起し、推定値を見つけることができると仮定すると、たとえば、仮説検定を実行できるように、推定値の分布を知りたいと思います。私は別に2つの係数ベクトルをテストするといいと思いますが、テストにいくつかの方法を好むだろう、例えば所与のため。β^1,β^2β^1,β^2\hat{\beta}_1, \hat{\beta}_2 H0:w1→⊤β1→+w2→⊤β2→≤cH0:w1→⊤β1→+w2→⊤β2→≤cH_0: \vec{w_1}^{\top} \vec{\beta_1} + \vec{w_2}^{\top} \vec{\beta_2} \le cw1→,w2→,cw1→,w2→,c\vec{w_1}, \vec{w_2}, c

3
スピアマンまたはピアソンのリッカートスケールとの相関性
リッカート尺度が使用された多くの測定で相関を実行したいと考えています。散布図を見ると、線形性と等分散性の仮定に違反している可能性があります。 序数レベルの評価と間隔レベルのスケーリングの概算について議論があるように見えるので、安全にプレイして、ピアソンのrではなくスピアマンのローを使用する必要がありますか? スピアマンのローと一緒に行く場合に引用できる参考文献はありますか?

2
Breusch–Paganテストの結果をどのように解釈しますか?
では、パッケージの関数をR使用して、異分散性のBreusch–Paganテストを実行できます。Breusch–Pagan検定は、カイ2乗検定の一種です。ncvTestcar これらの結果を解釈するにはどうすればよいですか。 > require(car) > set.seed(100) > x1 = runif(100, -1, 1) > x2 = runif(100, -1, 1) > ncvTest(lm(x1 ~ x2)) Non-constant Variance Score Test Variance formula: ~ fitted.values Chisquare = 0.2343406 Df = 1 p = 0.6283239 > y1 = cumsum(runif(100, -1, 1)) > y2 = runif(100, -1, …

1
フィッティング値を大きくしてスプレッドが減少したときに分散の不均一性をどうするか
Rコードが次のような線形混合モデルを作成しようとしています。 lme(Average.payoff〜Game + Type + Others.Type + Game:Type + Game:Others.Type + Type:Others.Type、random =〜1 | Subjects、method = "REML"、data = Subjectsm1)-> lme1 応答項Average.payoffは連続ですが、すべての説明変数はすべてバイナリです。 検証に来ると、フィット値が大きくなると残差の広がりが減少することがはっきりとわかります。近似値が大きくなると残差が増加する形で不均一性に関する情報がたくさんあるようですが、私は自分のケースに似たケースについては何も読んでいません。 各説明効果に対して残差をプロットしましたが、変数GameおよびTypeの近似値が大きいほどスプレッドが減少しますが、変数Others.Typeの場合は増加することがわかります。 これの原因は何ですか?それについて私は何をすべきですか? 2次項の追加または加法モデリングの使用を検討すべきですか?適用すべき変換はありますか? おかげで、 ジョナサン

3
ANOVAで等分散性の仮定に違反したときに発生する可能性がある最悪の事態は何ですか?
これは、この投稿を確認した後のフォローアップの質問です。違いは、非正規の異分散データの統計的検定を意味しますか? 明確にするために、私は実用的な観点から質問しています(理論的な応答が歓迎されないことを示唆するものではありません)。グループ間に正常性は存在しますが(上記の質問のタイトルとは異なります)、グループの差異が実質的に異なる場合、研究者が観察する可能性のある最悪の事態は何ですか? 私の経験では、このシナリオで最も発生する問題は、事後比較の「奇妙な」パターンです。(これは私の公開された作品と教育環境の両方で観察されています...以下のコメントでこれの詳細を提供してうれしいです。)私が観察したのはこれに似たものです: 3つのグループがあります。(オムニバス)ANOVAはを与え、ペアワイズ検定はが他の2つのグループと統計的に有意に異なることを示唆しています...しかしとM1&lt; M2&lt; M3M1&lt;M2&lt;M3M_1 < M_2 < M_3p &lt; αp&lt;αp<\alphatttM2M2M_2M1M1M_1M3M3M_3統計的に有意差はありません。私の質問の一部は、これが他の人が観察したものであるかどうかですが、比較可能なシナリオで他にどのような問題を観察しましたか? 私の参照テキストを簡単に確認すると、ANOVAは、等分散性の仮定の軽度から中程度の違反に対してかなり堅牢であり、サンプルサイズが大きい場合はさらに強固であることがわかります。ただし、これらのリファレンスでは、(1)何が問題になるか、または(2)多数のグループで何が発生するかを具体的に述べていません。

1
ポアソンGLMMの異分散性の解決
長期的な収集データがあり、収集した動物の数が天候の影響によって影響を受けるかどうかをテストしたいと思います。私のモデルは以下のようになります: glmer(SumOfCatch ~ I(pc.act.1^2) +I(pc.act.2^2) + I(pc.may.1^2) + I(pc.may.2^2) + SampSize + as.factor(samp.prog) + (1|year/month), control=glmerControl(optimizer="bobyqa", optCtrl=list(maxfun=1e9,npt=5)), family="poisson", data=a2) 使用される変数の説明: SumOfCatch:収集された動物の数 pc.act.1、pc.act.2:サンプリング中の気象条件を表す主成分の軸 pc.may.1、pc.may.2:5月の気象条件を表すPCの軸 SampSize:落とし穴トラップの数、または標準の長さのトランセクトの収集 samp.prog:サンプリングの方法 年:サンプリングの年(1993年から2002年まで) 月:サンプリングの月(8月から11月まで) フィットされたモデルの残差は、フィットされた値に対してプロットすると、かなりの不均一性(異分散性?)を示します(図1を参照)。 私の主な質問は、これは私のモデルの信頼性を疑わしいものにする問題ですか?もしそうなら、それを解決するために私は何ができますか? これまでのところ、私は以下を試しました: 観測レベルの変量効果を定義することによって過剰分散を制御します。つまり、観測ごとに一意のIDを使用し、このID変数を変量効果として適用します。私のデータはかなりの過剰分散を示していますが、残差がさらに醜くなったため、これは役に立ちませんでした(図2を参照) ランダムエフェクトのないモデルを、準ポアソンglmとglm.nbでフィッティングしました。元のモデルと同様の残差プロットと近似プロットも生成しました 私の知る限り、異分散性一貫性のある標準誤差を推定する方法はあるかもしれませんが、Rのポアソン(または他の種類の)GLMMに対してそのような方法を見つけることはできませんでした。 @FlorianHartigへの応答:データセット内の観測値の数はN = 554であり、これはかなりの観測値だと思います。そのようなモデルの数ですが、もちろん、より多くの陽気です。2つの図を投稿します。最初の図は、DHARMaでスケーリングされたメインモデルの残差プロット(Florianが推奨)です。 2番目の図は2番目のモデルからのもので、唯一の違いは観測レベルの変量効果が含まれていることです(最初のモデルには含まれていません)。 更新 気象変数(予測子、つまりx軸)とサンプリングの成功(応答)の関係の図: アップデートII。 予測値と残差を示す図:


1
回帰モデルにおける同時不均一性と重い裾
回帰を使用して予測モデルを作成しようとしています。これは、Rでlm()を使用して取得したモデルの診断プロットです。 QQプロットから読み取ったのは、残差が裾が重い分布であり、残差vs適合プロットは残差の分散が一定でないことを示唆しているようです。堅牢なモデルを使用して、残差の重い裾を飼いならすことができます。 fitRobust = rlm(formula, method = "MM", data = myData) しかし、それは物事が止まるところです。ロバストモデルの重さはいくつかの点0です。これらの点を削除すると、ロバストモデルの残差と近似値は次のようになります。 異分散はまだそこにあるようです。使用する logtrans(model, alpha) αα\alpha rlm(formula, method = "MM") ログ(Y+ α )〜X1+ ⋯ + Xんログ⁡(Y+α)〜バツ1+⋯+バツん\log(Y + \alpha) \sim X_1+\cdots+X_nαα\alpha 私には、残差がまだ一定の分散を持っていないように見えます。私は他の応答変換(Box-Coxを含む)を試しましたが、それらも改善のようには見えません。私がやっていることの第2段階(つまり、ロバストなモデルでの応答の変換を見つけること)が、どの理論によってもサポートされているかどうかさえわかりません。コメント、考え、または提案をいただければ幸いです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.