タグ付けされた質問 「heteroscedasticity」

ランダムなプロセスでのいくつかの連続体に沿った非一定の分散。

8
既存の変数と定義された相関関係を持つランダム変数を生成します
シミュレーション研究のために、既存の変数に対する事前定義された(母集団)相関を示すランダム変数を生成する必要があります。YYY 私は、に見えたRパッケージcopulaとCDVine特定の依存構造を持つランダムな多変量分布を生成することができました。ただし、結果の変数の1つを既存の変数に修正することはできません。 アイデアや既存の機能へのリンクを歓迎します! 結論: さまざまなソリューションで、2つの有効な答えが出ました。 カラカルによるR スクリプト。事前定義された変数との正確な(サンプル)相関を持つランダム変数を計算します 事前定義された変数に対する定義された母集団相関を持つランダム変数を計算するR 関数 [@ttnphnsの追加:質問のタイトルを単一の固定変数の場合から任意の数の固定変数に拡大するために自由を取りました。すなわち、いくつかの固定された既存の変数と事前定義された相関を持つ変数を生成する方法]

2
線形回帰モデルに「一定の分散」があるとはどういう意味ですか?
エラー項に「一定の分散」があるとはどういう意味ですか?ご覧のとおり、1つの従属変数と1つの独立変数を持つデータがあります。定数分散は、線形回帰の仮定の1つです。ホモ分散性が何を意味するのか疑問に思っています。500行あるとしても、明らかに一定の単一の分散値を持つことになります。どの変数で分散を比較する必要がありますか?


1
異分散データに対する一元配置分散分析の代替
異なるサイズのサンプル(n_A = 15、n_B = 13、n_C = 12)を含む藻類バイオマスの3つのグループ(、B、C)からのデータがあり、これらのグループが同じ母集団からのものかどうかを比較したいと思います。BAAABBBn A = 15 n B = 13 n C = 12CCCnA=15nA=15n_A=15nB=13nB=13n_B=13nC=12nC=12n_C=12 一元配置分散分析は間違いなく進むべき道ですが、私のデータに対して正規性テストを実施する際には、ヘテロスケダシティーが主な問題のようです。私の生データは、変換なしで、臨界値(F _ {\ rm crit} = 4.16)より非常に高い分散比(Fmax=19.1Fmax=19.1F_{\max} = 19.1)を生成したため、一元配置分散分析を実行できません。Fcrit=4.16Fcrit=4.16F_{\rm crit} = 4.16 また、データを正規化するための変換も試みました。さまざまな変換(対数、平方根、平方)の試行後でも、\ log_ {10}変換による変換後に生成された最低のF _ {\ max}は7.16であり、F _ {\ rm crit}と比較して依然として高かった。FmaxFmaxF_{\max}log10log10\log_{10}7.167.167.16FcritFcritF_{\rm crit} ここから誰がここからどこに行くべきかをアドバイスできますか?データで正規化する他の変換方法は考えられません。一元配置分散分析に代わるものはありますか? PS:私の生データは以下の通りです: A: 0.178 0.195 0.225 0.294 0.315 0.341 …

5
「heteroskedastic」または「heteroscedastic」の2つのスペルがあるのはなぜですか?
「heteroskedastic」と「heteroscedastic」、および「homoscedastic」と「homoskedastic」の両方のスペルがよく見られます。「c」と「k」の変形の間に意味の違いはないようで、単に単語のギリシャ語の語源に関する正書法の違いです。 2つの異なるスペルの起源は何ですか? ある使用法が他の使用法よりも一般的であり、それらは地域や研究分野間のばらつきを反映しているか、それとも著者の(または実際に編集上の)選好以上のものを反映しているのでしょうか? 余談ですが、他の言語はギリシャ語のルーツを英語にラテン化するための異なるポリシーを持っています。したがって、第二言語として英語を使用している著者が、母国語に対応する英語の綴りを好むかもしれませんが、私は驚かないでしょう。おそらく本当のテストは、ギリシャの統計学者が英語で書くときにそれを呼ぶものです!

5
線形回帰の等分散性の仮定に違反する危険性は何ですか?
例として、ChickWeightRのデータセットを考えてみましょう。分散は明らかに時間とともに増大するため、次のような単純な線形回帰を使用すると、 m <- lm(weight ~ Time*Diet, data=ChickWeight) 私の質問: モデルのどの側面に疑問があるか? 問題はTime範囲外の外挿に限定されていますか? この仮定の違反に対する線形回帰の許容度(つまり、問題を引き起こすためにはどの程度異分散が必要か)。

3
不等分散の回帰モデリング
残差分散が説明変数に明らかに依存している線形モデル(lm)を近似したいと思います。 私がこれを行う方法は、ガンマファミリでglmを使用して分散をモデル化し、その逆関数をlm関数の重みに入れることです(例:http : //nitro.biosci.arizona.edu/r/chapter31 .pdf) 私は考えていた: これが唯一のテクニックですか? 関連する他のアプローチは何ですか? このタイプのモデリングに関連するRパッケージ/機能は何ですか?(glm、lm以外)

2
重み付き最小二乗回帰の重みをどのように見つけますか?
WLS回帰のプロセスで少し迷っています。データセットが与えられましたが、私のタスクは異分散があるかどうかをテストすることです。そうであれば、WLS回帰を実行する必要があります。 私はテストを実施し、異分散の証拠を見つけたので、WLSを実行する必要があります。WLSは基本的に変換されたモデルのOLS回帰であると言われましたが、変換関数を見つけることについて少し混乱しています。私は、変換がOLS回帰からの二乗残差の関数になり得ることを示唆するいくつかの記事を読みましたが、誰かが正しい軌道に乗るのを手伝ってくれれば幸いです。


4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

1
サンドイッチ推定器の直観
ウィキペディアとRサンドイッチパッケージビネットは、OLS係数の標準誤差をサポートする仮定とサンドイッチ推定量の数学的背景に関する優れた情報を提供します。おそらく、最初の段階で標準のOLS係数の分散推定を完全に理解していないためと思われますが、残差の不均一分散の問題にどのように対処するのかはまだわかりません。 サンドイッチ推定器の背後にある直感は何ですか?

2
比率データの変換:arcsin平方根では不十分な場合
パーセンテージ/プロポーションデータのアークサイン平方根変換の(より強力な)代替手段はありますか?私が現在取り組んでいるデータセットでは、この変換を適用した後、顕著な不均一分散性が残っています。つまり、残差対適合値のプロットは依然としてひし形です。 コメントに対応するために編集:データは、10%の倍数で寄付金の0-100%を投資する可能性のある実験参加者による投資決定です。また、順序ロジスティック回帰を使用してこれらのデータを調べましたが、有効なglmが生成するものを確認したいと思います。加えて、arcsin平方根は私の分野ですべてのサイズに対応するソリューションとして使用されているようで、採用されている代替手段に出会ったことがないため、答えは将来の作業に役立つことがわかりました。

6
堅牢な(白)標準エラーを常に報告しますか?
AngristとPischkeは、Robust(すなわち、不均一分散または不均等な分散に対してロバスト)標準エラーは、テストではなく当然のこととして報告されていると示唆しています。2つの質問: 等分散性がある場合の標準エラーへの影響は何ですか? 誰かが実際に仕事でこれをしますか?

4
実際には、データが仮定を完全に満たしていない場合、人々はどのように分散分析を処理しますか?
これは厳密な統計問題ではありません。ANOVAの仮定に関するすべての教科書を読むことができます。実際の作業アナリストが仮定を完全に満たさないデータをどのように処理するかを考えています。私はこのサイトで多くの質問に答えを探しましたが、ANOVAを使用しないとき(抽象的で理想的な数学的コンテキストで)またはRで以下に説明するいくつかの方法を行う方法についての投稿を探し続けています。人々が実際にどのような決定を下し、なぜそれを決定しようとしているのか。 4つのグループのツリー(統計ツリーではなく実際のツリー)からグループ化されたデータの分析を実行しています。各ツリーには約35の属性のデータがあり、各属性を調べて、その属性でグループが大きく異なるかどうかを判断します。ただし、いくつかのケースでは、分散が等しくないため、ANOVAの仮定にわずかに違反します(Leveneのテストによると、alpha = .05を使用)。 私が見るように、私のオプションは次のとおりです。1.データをパワー変換し、Levene p-valを変更するかどうかを確認します。2.ウィルコクソンのようなノンパラメトリック検定を使用します(もしそうなら、どれですか?)。3.ボンフェローニのように、ANOVAの結果に対して何らかの修正を行います(実際にこのようなものが存在するかどうかはわかりませんか?)。最初の2つのオプションを試したところ、わずかに異なる結果が得られました。場合によっては、一方のアプローチが重要で、もう一方のアプローチは重要ではありません。私はp値の釣りのtrapに陥ることを恐れており、どのアプローチを使用するのかを正当化するのに役立つアドバイスを探しています。 また、平均と分散が相関しない限り(つまり、両者が一緒に増加する)ANOVAの場合、不均一分散性はそれほど大きな問題ではないことを示唆するものも読んでいます。そのようなパターン?もしそうなら、これのテストはありますか? 最後に、ピアレビューされたジャーナルへの掲載のためにこの分析を行っていることを付け加える必要があります。そのため、私が決めようとするアプローチはすべて、レビューアーと一緒に合格しなければなりません。だから、もし誰かが同様の公開された例へのリンクを提供できれば素晴らしいでしょう。

4
異分散性に対処する最良の方法は?
不均一分散性が非常に明確な、近似値の関数での線形モデルの残差値のプロットがあります。しかし、この不均一分散性が私の線形モデルを無効にすることを理解している限り、今どのように進めるべきかはわかりません。(そうですか?) パッケージのrlm()関数を使用した堅牢な線形フィッティングを使用するのは、MASS不均一分散性に対して明らかに堅牢であるためです。 係数の標準誤差は不均一分散のために間違っているので、標準誤差を不均一分散に対してロバストになるように調整できますか?ここでスタックオーバーフローに投稿された方法を使用:ヘテロスケダスティクスによる回帰標準エラーを修正 私の問題に対処するために使用する最良の方法はどれですか?ソリューション2を使用すると、モデルの予測機能はまったく役に立ちませんか? Breusch-Pagan検定では、分散が一定ではないことが確認されました。 近似値の関数における私の残差は次のようになります。 (拡大版)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.