タグ付けされた質問 「heteroscedasticity」

ランダムなプロセスでのいくつかの連続体に沿った非一定の分散。

2
異分散性と残差の正規性
私は非常に良い線形回帰を持っていると思います(大学のプロジェクトのため、本当に正確である必要はありません)。 ポイントは、私が残差対予測値をプロットした場合、(私の教師によれば)不均一分散のヒントがあることです。 しかし、残差のQQプロットをプロットすると、それらが正規分布していることは明らかです。さらに、残差のシャピロ検定の値はなので、残差が実際に正規分布していることは間違いないと思います。ppp0.80.80.8 質問:残差が正規分布している場合、予測値に不均一性はどのようにありますか?

2
バートレット検定とリーベン検定
私は現在、分散分析の仮定に対する違反に対処しようとしています。私はShapiro-Wilkを使用して正規性をテストし、Leveneの検定とBartlettの分散の等価性の検定の両方を試してみました。それ以来、不平等な分散を試みて修正するためにデータをログ変換しました。対数変換されたデータに対してバートレットのテストを再実行しましたが、依然として有意なp値を受け取りました。好奇心から、レベンのテストも実行し、有意ではないp値を得ました。どのテストに頼ればよいですか?

2
標準偏差が独立変数でスケーリングするレートを推定する
正規分布変数測定を行っている実験があります。YYY Y∼N(μ,σ)Y∼N(μ,σ)Y \sim N(\mu,\sigma) しかし、以前の実験は、標準偏差といういくつかの証拠が提供された独立変数のアフィン関数であるXを、すなわち、σσ\sigmaXXX σ=a|X|+bσ=a|X|+b\sigma = a|X| + b Y∼N(μ,a|X|+b)Y∼N(μ,a|X|+b)Y \sim N(\mu,a|X| + b) Xの複数の値でYをサンプリングすることにより、パラメーターおよびbを推定したいと思います。さらに、実験の制限により、Yの限られた数(約30〜40)のサンプルしか取得できず、無関係な実験上の理由から、Xのいくつかの値でサンプリングすることを好みます。これらの制約がある場合、aとbを推定するためにどのような方法が利用できますか?aaabbbYYYXXXYYYXXXaaabbb 実験の説明 これは、上記の質問をする理由に興味がある場合の追加情報です。私の実験では、聴覚と視覚の空間知覚を測定します。さまざまな場所からの聴覚的または視覚的なターゲットを提示できる実験設定があり、被験者はターゲットの知覚された場所Yを示します。上記のσとしてモデル化した離心率の増加(つまり| X |の増加)により、ビジョン*とオーディションの両方の精度が低下します。結局、aとbを見積もりたいXXXYYY|X||X||X|σσ\sigmaaaabbbビジョンとオーディションの両方のために、私は空間内のさまざまな場所にわたる各感覚の精度を知っています。これらの推定値は、同時に提示される場合に視覚的および聴覚的ターゲットの相対的な重み付けを予測するために使用されます(ここで提示される多感覚統合の理論と同様:http : //www.ncbi.nlm.nih.gov/pubmed/12868643)。 *中心窩空間と中心窩外空間を比較すると、このモデルは視覚に対して不正確であることがわかっていますが、私の測定値は中心窩空間にのみ制限されています。これはまともな近似です。

3
分散の均一性に関するLeveneまたはBartlettの検定によって生成されるp値の解釈
私は、実験の1つからのデータのグループに対してLeveneとBartlettのテストを実行して、分散の均一性のANOVAの仮定に違反していないことを検証しました。よろしければ私が間違った仮定をしていないことを皆さんに確認したいのですが。 これらのテストの両方で返されるp値は、データが等しい分散を使用して再度生成された場合、データが同じになる確率です。したがって、これらの検定を使用して、分散の均一性のANOVAの仮定に違反していないと言えるようにするには、選択したアルファレベル(たとえば0.05)よりも高いp値のみが必要ですか? たとえば、私が現在使用しているデータで、バートレットのテストはp = 0.57を返しますが、リーベンのテスト(よくブラウンフォーサイスリーベンタイプのテストと呼んでいます)はap = 0.95を返します。つまり、どのテストを使用しても、仮定を満たしているデータであると言えます。私は間違いをしていますか? ありがとう。

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
線形回帰でバイナリ/二分独立予測子の残差分析を実行するにはどうすればよいですか?
マネージドファンドのリターンを予測するために、Rで以下の多重線形回帰を実行しています。 reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata) ここでは、GRIとMBAのみがバイナリ/二分予測です。残りの予測子は連続です。 このコードを使用して、バイナリ変数の残差プロットを生成しています。 plot(rawdata$GRI, reg$residuals) abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line (y~x) plot(rawdata$MBA, reg$residuals) abline(lm(reg$residuals~rawdata$MBA, data=rawdata), col="red") # regression line (y~x) 私の質問: 連続予測子の残差プロットを検査する方法は知っていますが、独立変数がバイナリの場合、等分散性などの線形回帰の仮定をどのようにテストしますか? 残差プロット:

2
分散が等しくない2標本のt検定に対応するベイジアンとは何ですか?
私は、分散が等しくない2標本t検定(ウェルチ検定)の対応するベイズ法を探しています。ホテリングのT統計のような多変量検定も探しています。参考に感謝します。 多変量の場合、と(z 1、⋯ 、z N)があり、y i(resp z i)は標本平均、標本標準偏差と数のショートカットですポイントの。我々は、点の数は、すべてのために同じデータセット全体にわたって一定、標準偏差であると仮定することができ、Y I(それぞれのZ I)のサンプル手段は、Y I(それぞれのZはI(y1,⋯,yN)(y1,⋯,yN)(y_1,\cdots,y_N)(z1,⋯,zN)(z1,⋯,zN)(z_1,\cdots,z_N)yiyiy_iziziz_iyiyiy_iziziz_iyiyiy_iziziz_i)は相関しています。標本平均をプロットすると、それらは互いに続き、それらを接続することにより、滑らかに変化する関数が得られます。現在、いくつかの部分に機能がと一致するZ機能、しかしため他人にそれはないmは電子N (Y Iを)- M eはnは(Z I)yyyzzzが大きくなります。このことを定量化したいと思います。 mean(yi)−mean(zi)std(yi)+std(zi)mean(yi)−mean(zi)std(yi)+std(zi)\frac{mean(y_i)-mean(z_i)}{std(y_i)+std(z_i)}

2
堅牢な標準誤差を含む分散分析表を取得するにはどうすればよいですか?
私はRのplmパッケージを使用してプールされたOLS回帰を実行しています。ただし、私の質問は基本的な統計に関するものなので、まずここに投稿してみます;) 私の回帰結果は不等分散残差を生成するので、不等分散ロバスト標準誤差を使用してみます。その結果、coeftest(mod, vcov.=vcovHC(mod, type="HC0"))各独立変数の推定値、標準誤差、t値、およびp値を含むテーブルが得られます。これらは基本的に私の「堅牢な」回帰結果です。 さまざまな変数の重要性を議論するために、各独立変数によって説明される分散のシェアをプロットしたいので、それぞれの二乗和が必要です。しかし、functionを使用するとaov()、Rに堅牢な標準エラーを使用するように指示する方法がわかりません。 今私の質問は:どのようにしてロバストな標準誤差を参照するANOVAテーブル/平方和を取得するのですか?通常の標準誤差のある回帰からの分散分析表に基づいてそれを計算することは可能ですか? 編集: つまり、Rの問題を無視します。 Rがロバストな標準誤差を使用しても影響を受けない場合、さまざまな説明変数による説明付き分散へのそれぞれの寄与も変化しませんか?22^2 編集: Rでは、aov(mod)実際にpanelmodel(plm)の正しいANOVAテーブルを提供しますか?

2
線形混合モデルの分散の残差診断と均一性
この質問をする前に、私は私たちのサイトを検索しましたし、同様の質問の多くを見つけ、(のようにここでは、ここでは、とここ)。しかし、これらの関連する質問は十分に対応または議論されていないと感じているため、この質問を再度提起したいと思います。こういう質問をもっとわかりやすく説明してほしいという聴衆がたくさんいると思います。 私の質問については、第一の線形混合効果モデルを考慮し、、線形固定効果成分である、対応する追加の設計行列でランダム効果パラメータ、。また、は通常のエラー項です。y=Xβ+Zγ+ϵy=Xβ+Zγ+ϵ \mathbf{y = X\boldsymbol \beta + Z \boldsymbol \gamma + \boldsymbol \epsilon} ZXβXβX\boldsymbol \betaZZ\mathbf{Z}ε 〜N (0 、σ 2 I)γγ\boldsymbol \gammaϵ ∼ N(0,σ2I)ϵ ∼ N(0,σ2I)\boldsymbol \epsilon \ \sim \ N(\mathbf{0, \sigma^2 I}) 唯一の固定効果因子は、3つの異なるレベルを持つカテゴリカル変数Treatmentであると仮定します。そして、唯一の変量効果因子は変数Subjectです。とはいえ、固定治療効果とランダムな被験者効果を持つ混合効果モデルがあります。 私の質問はこうです: 従来の線形回帰モデルと同様に、線形混合モデル設定に分散の仮定の均一性はありますか?もしそうなら、上記の線形混合モデル問題の文脈において、仮定は具体的に何を意味しますか?評価する必要がある他の重要な仮定は何ですか? 私の考え:はい。仮定(つまり、エラーゼロ平均、および分散が等しい)は、まだここからです:。従来の線形回帰モデルの設定では、「エラーの分散(または従属変数の分散のみ)は、3つの処理レベルすべてにわたって一定である」と仮定できます。しかし、混合モデル設定でこの仮定をどのように説明できるか迷っています。「分散は被験者の条件付けの3つのレベルで一定ですか?」ϵ ∼ N(0,σ2I)ϵ ∼ N(0,σ2I)\boldsymbol \epsilon \ \sim \ N(\mathbf{0, \sigma^2 I}) 残差と影響力診断に関するSASのオンラインドキュメント二つの異なる残差を育て、すなわち、限界残差、と条件付き残差、 私の質問は、2つの残差は何に使用されるのですか?それらをどのように使用して、均質性の仮定を確認できますか?私には、モデルのに対応しているため、均一性の問題に対処するために限界残差のみを使用できます。ここでの私の理解は正しいですか? R …

3
線形モデルの異分散性
次の線形モデルがあります。 残差の異分散性に対処するために、従属変数にとして対数変換を適用しようとしましたが、残差に対する同じファンアウト効果がまだあります。DV値は比較的小さいため、ログを取得する前の+1定数の追加は、この場合はおそらく適切ではありません。log(Y+1)log⁡(Y+1)\log(Y + 1) > summary(Y) Min. :-0.0005647 1st Qu.: 0.0001066 Median : 0.0003060 Mean : 0.0004617 3rd Qu.: 0.0006333 Max. : 0.0105730 NA's :30.0000000 特に予測誤差と分散を改善するために変数をどのように変換できますか?

2
等分散性仮定の(非)パラメトリック検定をいつ使用するか?
等分散性の仮定をテストする場合は、パラメトリック(分散の均一性のバートレット検定bartlett.test)とノンパラメトリック(分散の均一性のフィグナー-キリーン検定fligner.test)テストが利用できます。使用する種類を区別する方法は?これは、データの正常性などに依存する必要がありますか?

1
多くの左にゆがんだ分布の視覚化
表示したい一連の左スキュー/ヘビーテール分布があります。(AS標識三つの要因を横切る42点の分布がありA、BそしてC以下が)。また、変動は因子全体で縮小していBます。 私が抱えている問題は、結果のスケール(比率または倍率変化)全体で分布を区別するのが難しいことです。 データをログに記録すると、左の歪度が過度に強調され、より多くのサンプルが裾に移動します(異常値ポイントのマッシュが作成されます)。 これらのデータを視覚化するための他の手法についての提案はありますか?

2
独立性の検定と均質性の検定
私は基本的な統計コースを教えており、今日は2つのカテゴリーの独立性のカイ2乗検定と均質性の検定について説明します。これら2つのシナリオは概念的には異なりますが、同じテスト統計と分布を使用できます。均一性のテストでは、カテゴリの1つの限界合計は、設計自体の一部であると想定されます。これらは、各実験グループに対して選択された被験者の数を表します。しかし、カイ2乗検定はすべての周辺合計の条件付けを中心に展開するため、均質性の検定とカテゴリカルデータを使用した独立性の検定を区別しても、数学的影響はありません-少なくとも、この検定を使用する場合はありません。 私の質問は次のとおりです:独立性のテスト(すべての周辺がランダム変数)または同質性のテスト(周辺の1つのセットが存在する場合)に応じて、異なる分析をもたらす統計的思考または統計的アプローチの学校はありますか?デザインで設定)? 継続的なケースでは、同じ対象についてを観察し、独立性をテストするか、または異なる母集団で観察し、それらが同じ分布に由来するかどうかをテストする場合、方法は異なります(相関分析対t検定)。カテゴリカルデータが離散化された連続変数から得られた場合はどうなりますか?独立性と均質性のテストは区別できないでしょうか?(X 1、X 2)(X,Y)(X,Y)(X,Y)(X1,X2)(X1,X2)(X_1, X_2)

2
異分散性で線形回帰をシミュレーションする
私が持っている経験的データと一致するデータセットをシミュレートしようとしていますが、元のデータのエラーを推定する方法がわかりません。経験的データには不等分散性が含まれていますが、私はそれを変換することに興味はありません。むしろ、経験的データのシミュレーションを再現するために誤差項をもつ線形モデルを使用します。 たとえば、いくつかの経験的データセットとモデルがあるとします。 n=rep(1:100,2) a=0 b = 1 sigma2 = n^1.3 eps = rnorm(n,mean=0,sd=sqrt(sigma2)) y=a+b*n + eps mod <- lm(y ~ n) 使用plot(n,y)すると、次のようになります。 ただし、データをシミュレートしようとするsimulate(mod)と、異分散性は削除され、モデルによってキャプチャされません。 一般化された最小二乗モデルを使用できます VMat <- varFixed(~n) mod2 = gls(y ~ n, weights = VMat) AICに基づいてより適切なモデルフィットを提供しますが、出力を使用してデータをシミュレートする方法がわかりません。 私の質問は、元の経験的データ(上記のnおよびy)に一致するようにデータをシミュレートできるモデルをどのように作成するかです。具体的には、いずれかのモデルを使用して、エラーであるsigma2を推定する方法が必要ですか?


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.