タグ付けされた質問 「heteroscedasticity」

ランダムなプロセスでのいくつかの連続体に沿った非一定の分散。

1
適合確率分布におけるMLEと最小二乗
私が読んだいくつかの論文、本、記事に基づいて得た印象は、データのセットに確率分布を当てはめる推奨方法は最尤推定(MLE)を使用することです。ただし、物理学者としてのより直感的な方法は、最小二乗法を使用して、モデルのpdfをデータの経験的pdfに適合させることです。なぜ確率分布の近似においてMLEが最小二乗よりも優れているのですか?誰かがこの質問に答える科学論文/本を教えてもらえますか? 私の考えは、MLEがノイズモデルを想定しておらず、経験的pdfの「ノイズ」が異分散であり、正常ではないためです。


2
残差の不均一分散性の測定
このウィキペディアのリンクには、OLS残差不均一性を検出するための多くの手法がリストされています。異分散の影響を受ける領域を検出するのに、どのハンズオン手法がより効率的かを知りたいと思います。 たとえば、ここではOLSの「残差vs適合」プロットの中央領域は、プロットの側面よりも高い分散を持っているように見えます(事実は完全にはわかりませんが、質問のためだと仮定しましょう)。確認するには、QQプロットのエラーラベルを見ると、それらが残差プロットの中央のエラーラベルと一致していることがわかります。 しかし、分散が著しく高い残差領域をどのように定量化できますか?

2
Rの正規性または分散の等値性のないデータで双方向ANOVAを実行する方法は?
現在、修士論文に取り組んでおり、SigmaPlotで統計を実行することを計画しています。しかし、データにしばらく時間を費やした後、SigmaPlotが問題に合わない可能性がある(間違っている可能性がある)という結論に達しました。 計画では、3つの異なるタンパク質とそれらの8つの異なる処理から得られる私のデータに対して単純な2因子分散分析を実行することでした。そのため、私の2つの要因はタンパク質と処理です。両方を使用して正常性をテストしました > shapiro.test(time) そして > ks.test(time, "norm", mean=mean(time), sd=sqrt(var(time))) どちらの場合も(驚くことではないかもしれませんが)、私は非正規分布になりました。 これにより、分散の等式に使用するテストの最初の質問が残りました。思いついた > chisq.test(time) その結果、データにも分散の等値性がありませんでした。 さまざまなデータ変換(ログ、中央、標準化)を試しましたが、それらはすべて分散の問題を解決しませんでした。 今、私は途方に暮れています。どのタンパク質とどの治療法が互いに有意に異なるかをテストするためにANOVAを実施する方法です。Kruskal-Walis-Testについて何かを見つけましたが、それは1つの要因(?)だけです。また、ランキングやランダム化についても発見しましたが、Rでそれらの手法を実装する方法はまだありません。 誰かが私がすべきことを提案していますか? 編集:あなたの答えに感謝します、私は読書に少し圧倒されます(それはちょうどより少なくよりむしろますます得ているようです)、しかし、私はもちろん続けます。 提案されたデータの例を次に示します(形式が非常に残念で、別の解決策やファイルを置く場所がわかりませんでした。私はまだこのすべてに慣れていません。): protein treatment time A con 2329.0 A HY 1072.0 A CL1 4435.0 A CL2 2971.0 A CL1-HY sim 823.5 A CL2-HY sim 491.5 A CL1+HY mix 2510.5 A CL2+HY mix …

5
ANOVAの仮定の確認
数か月前に、SOのRでの同分散性テストに関する質問を投稿しましたが、Ian Fellowsが答えました(彼の答えは非常に大まかに言い換えます)。 モデルの適合度をテストするとき、同相性テストは良いツールではありません。小さなサンプルでは、​​ホモ分散性からの逸脱を検出するのに十分なパワーがありませんが、大きなサンプルでは「十分なパワー」があるため、平等からの些細な逸脱でもスクリーニングする可能性が高くなります。 彼の素晴らしい答えは私の顔に平手打ちとして来ました。以前は、ANOVAを実行するたびに、正規性と同分散性の仮定をチェックしていました。 あなたの意見では、ANOVAの仮定をチェックするときのベストプラクティスは何ですか?

3
異分散データの分散の予測
私は、誤差分散と線形モデルの観点からの平均値を予測しようとする異分散データの回帰を試みています。このようなもの: y(x,t)ξ(x,t)y¯(x,t)σ(x,t)=y¯(x,t)+ξ(x,t),∼N(0,σ(x,t)),=y0+ax+bt,=σ0+cx+dt.y(x,t)=y¯(x,t)+ξ(x,t),ξ(x,t)∼N(0,σ(x,t)),y¯(x,t)=y0+ax+bt,σ(x,t)=σ0+cx+dt.\begin{align}\\ y\left(x,t\right) &= \bar{y}\left(x,t\right)+\xi\left(x,t\right),\\ \xi\left(x,t\right) &\sim N\left(0,\sigma\left(x,t\right)\right),\\ \bar{y}\left(x,t\right) &= y_{0}+ax+bt,\\ \sigma\left(x,t\right) &= \sigma_{0}+cx+dt. \end{align} 言い換えると、データは、さまざまな値のxおよびtでのの反復測定で構成さy(x,t)y(x,t)y(x,t)れています。私は、これらの測定は、「真の」平均値から成ると仮定ˉ Y(X 、T )の線形関数であり、X及びT加法ガウス雑音で、ξ (X 、T )私は持っていない、その標準偏差(または分散また、x 、tに線形に依存します。(xにより複雑な依存関係を許可し、xxxttty¯(x,t)y¯(x,t)\bar{y}(x,t)xxxtttξ(x,t)ξ(x,t)\xi(x,t)x,tx,tx,txxxttt –線形形式の強力な理論的動機付けはありませんが、この段階で物事を複雑にしすぎないようにしたいです。) 私は「不均一」ここでは検索用語がある知っているが、すべては私がこれまでよりよく予測することがそれを削除/削減する方法の議論されている見つけることができましたy¯y¯\bar{y}、しかししようという点では何もすることが予測しない σσ\sigmaの観点から独立変数。私は推定したいと思いy0,a,b,σ0,cy0,a,b,σ0,cy_0, a, b, \sigma_0, c及びddd信頼区間(またはベイジアン当量)で、そしてとても良くSPSSでそれを行うための簡単な方法があるかどうか!私は何をすべきか?ありがとう。

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
Newey-West(1987)とHansen-Hodrick(1980)の比較
質問: Newey-West(1987)とHansen-Hodrick(1980)の標準エラーを使用した場合の主な違いと類似点は何ですか?これらのいずれかが他の状況よりも優先されるべき状況はどれですか? ノート: これらの各調整手順がどのように機能するかは知っています。しかし、オンラインでも教科書でも、それらを比較する文書をまだ見つけていません。参照は大歓迎です! Newey-Westは "catch-all" HAC標準エラーとして使用される傾向がありますが、Hansen-Hodrickは重複するデータポイントのコンテキストで頻繁に表示されます(たとえば、この質問またはこの質問を参照)。したがって、私の質問の一つの重要な側面は、それが作るハンセン-Hodrickについては何も存在しているよりニューエイ、西よりの重複データを扱うのに適しては?(結局のところ、データの重複は最終的に直列相関の誤差項につながり、Newey-Westも対処します。) 記録については、私はこの同様の質問を知っていますが、それは比較的不十分なポーズであり、投票され、最終的に私がここで尋ねている質問には答えられませんでした(プログラミング関連の部分のみが答えられました)。

2
不等分散のt検定における非整数の自由度の説明
SPSS t-Testプロシージャは、2つの独立した平均を比較するときに2つの分析を報告します。1つの分析は等分散を仮定し、もう1つは等分散を仮定しません。等しい分散が仮定される場合の自由度(df)は、常に整数値(およびn-2に等しい)です。等分散が仮定されていない場合のdfは非整数(11.467など)であり、n-2の近くにはありません。これらの非整数dfの計算に使用されるロジックと方法の説明を求めています。

2
バートレットのテストによって診断された球形度は、PCAが不適切であることを意味するのはなぜですか?
バートレットの検定は、サンプルが等分散の母集団からのものであるかどうかを判断することに関することを理解しています。 サンプルが等分散の母集団からのものである場合、検定の帰無仮説を棄却できないため、主成分分析は不適切です。 この状況(ホモスケダスティクスデータセットを持つ)の問題がどこにあるのかわかりません。すべてのデータの基礎となる分布が同じであるデータセットを持つことの問題は何ですか?この条件が存在する場合、私は大したことはありません。これによりPCAが不適切になるのはなぜですか? 私はオンラインのどこにも良い情報を見つけることができないようです。このテストがPCAに関連する理由を解釈した経験はありますか?

1
ブートストラップ標準誤差と信頼区間は、等分散性の仮定に違反する回帰で適切ですか?
標準のOLS回帰で2つの仮定(エラーの正規分布、等分散性)に違反する場合、標準誤差と信頼区間のブートストラップは、リグレッサ係数の有意性に関して意味のある結果を得るための適切な代替手段ですか? ブートストラップされた標準誤差と信頼区間を使用した有意性検定は、依然として不均一分散で「機能」していますか? 「はい」の場合、このシナリオで使用できる適用可能な信頼区間は何ですか(パーセンタイル、BC、BCA)。 最後に、このシナリオでブートストラップが適切な場合、この結論に到達するために読んで引用する必要がある関連文献は何でしょうか?ヒントは大歓迎です!

1
RのlmオブジェクトなしでNewey-West標準誤差を計算します
昨日、StackOverflowでこの質問をして回答を得ましたが、少しハックが多いようで、より良い見方があるかもしれません。 質問:ベクトル(この場合は株式の返品のベクトル)のNewey-West(HAC)標準誤差を計算したいと思います。パッケージNeweyWest()内の関数sandwichはこれを行いますがlm、入力としてオブジェクトを受け取ります。Joris Meysが提供する解決策は、ベクトルを1に射影することNeweyWest()です。これにより、私のベクトルが残差に変換され、に供給されます。あれは: as.numeric(NeweyWest(lm(rnorm(100) ~ 1))) 平均の分散。 私はこのようにするべきですか?または、私が望むことをより直接行う方法はありますか?ありがとう!

3
一元配置分散分析の不等分散の代替
等しいサイズの3つのグループで平均を比較したいと思います(等しいサンプルサイズは小さい、21)。各グループの平均は通常分布していますが、それらの分散は等しくありません(Leveneを介してテストされます)。この状況では、変換が最適なルートですか?最初に何か他のものを考慮する必要がありますか?

1
条件付き同分散性と異分散性
以下からの計量経済学、林文夫(Chpt 1)によって: 無条件の同相性: 誤差項E(εᵢ²)の2番目の瞬間は、観測全体で一定です 関数形式E(εᵢ²| xi)は観測全体で一定です 条件付き同相性: 誤差項E(εᵢ²)の2次モーメントが観測全体で一定であるという制限が解除されます。 したがって、条件付き二次モーメントE(εᵢ²| xi)は、xᵢに依存する可能性があるため、観測全体で異なる可能性があります。 それで、私の質問: 条件付き同相性は、異相性とどのように異なりますか? 私の理解では、2番目の瞬間が観測(xᵢ)で異なる場合、不均一分散性があるということです。

1
フィッシャーの厳密検定と超幾何分布
私はフィッシャーの正確なテストをよりよく理解したかったので、次のおもちゃの例を考案しました。ここで、fとmは男性と女性に対応し、nとyは次のように「ソーダ消費」に対応します。 > soda_gender f m n 0 5 y 5 0 明らかに、これは大幅な簡略化ですが、コンテキストが邪魔になりたくありませんでした。ここで私は男性がソーダを飲まず、女性がソーダを飲まないと仮定し、統計手順が同じ結論になるかどうかを確認したかっただけです。 Rでフィッシャーの正確検定を実行すると、次の結果が得られます。 > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 ここでは、p値が0.007937であるため、性別とソーダ消費が関連付けられていると結論付けます。 フィッシャーの正確な検定が超幾何分布に関連していることを知っています。だから私はそれを使って同様の結果を得たいと思った。つまり、この問題は次のように表示できます。10個のボールがあり、5個が「男性」、5個が「女性」とラベル付けされており、交換せずに5つのボールをランダムに描画すると、0個の男性ボールが表示されます。 。この観察の可能性は何ですか?この質問に答えるために、次のコマンドを使用しました。 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.