タグ付けされた質問 「anova」

ANOVAは、複数のグループ平均を比較するための統計モデルおよび一連の手順であるVArianceのANalysisの略です。ANOVAモデルの独立変数はカテゴリカルですが、ANOVAテーブルを使用して連続変数をテストすることもできます。

5
なぜANOVAは線形回帰と比較して異なる研究方法論であるかのように教えられ/使用されますか?
ANOVAは、適切なダミー変数を使用した線形回帰と同等です。ANOVAを使用するか線形回帰を使用するかに関係なく、結論は同じままです。 それらの同等性に照らして、ANOVAが線形回帰の代わりに使用される理由はありますか? 注:線形回帰の代わりにANOVAを使用する技術的な理由について特に興味があります。 編集 一元配置分散分析を使用した1つの例を次に示します。男性と女性の平均身長が同じかどうかを知りたいとします。仮説をテストするために、男性と女性のランダムサンプル(それぞれ30個)からデータを収集し、ANOVA分析(性別とエラーの平方和)を実行して、効果が存在するかどうかを判断します。 次のように、線形回帰を使用してこれをテストすることもできます。 定義: 回答者が男性の場合は、それ以外の場合は。 ここで:Gender=1Gender=1\text{Gender} = 1000Height=Intercept+β∗Gender+errorHeight=Intercept+β∗Gender+error \text{Height} = \text{Intercept} + \beta * \text{Gender} + \text{error} error∼N(0,σ2)error∼N(0,σ2)\text{error}\sim\mathcal N(0,\sigma^2) 次に、かどうかのテストは、仮説と同等のテストです。β=0β=0\beta = 0
91 regression  anova 

3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 


2
事後テストの前にグローバルテストが必要ですか?
ANOVAが重要な場合にのみ、ANOVA後の事後テストを使用できるとよく耳にします。 しかし、事後テストでは値を調整して、グローバルタイプIエラー率を5%に保ちます。ppp それでは、なぜ最初にグローバルテストが必要なのでしょうか? グローバルなテストが必要ない場合、「事後」という用語は正しいですか? または、複数の種類の事後テストがあります。一部は重要なグローバルテスト結果を想定しており、その他はその前提なしです。

5
治療前後のコントロール設計を分析する際のベストプラクティス
次の一般的な設計を想像してください。 100人の参加者が治療グループまたは対照グループにランダムに割り当てられます 従属変数は数値であり、治療の前後に測定されます このようなデータを分析するための3つの明白なオプションは次のとおりです。 混合ANOVAの時間交互作用効果によるグループのテスト IVとして条件、共変量として事前測定値、DVとして事後測定値を使用してANCOVAを実行します。 IVとして条件、DVとして変更前後のスコアでt検定を実行します 質問: そのようなデータを分析する最良の方法は何ですか? あるアプローチを別のアプローチよりも好む理由はありますか?

3
ANOVA仮定の正規性/残差の正規分布
ANOVAのウィキペディアのページには、次の3つの仮定がリストされています。 ケースの独立性-これは、統計分析を簡素化するモデルの仮定です。 正規性-残差の分布は正規です。 等分散性と呼ばれる分散の平等(または「均一性」)... ここで重要な点は、2番目の仮定です。いくつかのソースは、仮定を異なってリストしています。生データの正常性、残差の主張などがあります。 いくつかの質問が表示されます: 残差の正規性と正規分布は同じ人ですか(Wikipediaのエントリに基づいて、正規性はプロパティであり、残差に直接関係しないと主張します(しかし、残差のプロパティ(括弧内の深くネストされたテキスト、気紛れ)))? そうでない場合、どの仮定を保持する必要がありますか?1?両方? 正規分布の残差の仮定が正しい場合、生の値のヒストグラムのみの正規性をチェックすることで重大な間違いを犯していますか?

4
ANOVAが線形回帰と同等なのはなぜですか?
ANOVAと線形回帰は同じものだと読みました。ANOVAの出力が値と値であり、これに基づいてサンプルが異なるサンプル全体で同じか異なるかを判断すると、どのようになりますか。pFFFppp しかし、平均が等しくないと仮定すると(帰無仮説を棄却)、ANOVAは線形モデルの係数については何も伝えません。では、線形回帰はどのように分散分析と同じですか?
50 regression  anova 


5
2つのグループのt検定とANOVAが同等である場合、それらの仮定が同等ではないのはなぜですか?
私はこれを完全に頭に包んでいると確信していますが、私はそれを理解することができません。 t検定は、Z分布を使用して2つの正規分布を比較します。これが、データに正規性の仮定がある理由です。 ANOVAは、ダミー変数を使用した線形回帰に相当し、OLSと同様に平方和を使用します。それが、残差の正常性の仮定がある理由です。 私は数年かかったが、私は最終的にそれらの基本的な事実を把握したと思います。それでは、なぜt検定は2つのグループのANOVAと同等なのでしょうか?データについて同じことを想定していない場合、どうすれば同等になりますか?

3
対数変換された予測子および/または応答の解釈
従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのか​​と思います。 の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

1
タイプI、タイプII、およびタイプIII ANOVAおよびMANOVAの解釈方法
私の主な質問は、タイプI(シーケンシャル)分散分析を実行するときに出力(係数、F、P)を解釈する方法です。 私の特定の研究問題はもう少し複雑なので、私の例をいくつかに分けます。まず、植物の成長(Y1)に対するクモの密度(X1)の影響に興味があり、囲いに苗木を植え、クモの密度を操作した場合、単純なANOVAまたは線形回帰でデータを分析できます。その後、ANOVAにタイプI、II、またはIIIの二乗和(SS)を使用したかどうかは関係ありません。私の場合、5つの密度レベルの複製が4つあるため、密度を因子または連続変数として使用できます。この場合、私はそれを連続的な独立(予測)変数として解釈することを好みます。RIでは、次を実行できます。 lm1 <- lm(y1 ~ density, data = Ena) summary(lm1) anova(lm1) anova関数を実行すると、後で比較できることを願っていますので、ここで奇妙な点を無視してください。出力は次のとおりです。 Response: y1 Df Sum Sq Mean Sq F value Pr(>F) density 1 0.48357 0.48357 3.4279 0.08058 . Residuals 18 2.53920 0.14107 さて、私がコントロールできなかった土壌中の無機窒素の開始レベルも、植物の成長に大きな影響を与えたのではないかと疑っているとしましょう。私はこの効果に特に興味はありませんが、それが引き起こす変動を潜在的に説明したいと思います。実際、私の主な関心はクモの密度の効果です(仮説:クモの密度の増加は植物の成長の増加を引き起こします-おそらく草食性昆虫の減少によるものですが、メカニズムではなく効果のみをテストしています)。無機Nの効果を分析に追加できます。 私の質問のために、相互作用密度* inorganicNをテストし、それが有意ではないふりをして、分析からそれを削除し、次の主な効果を実行します: > lm2 <- lm(y1 ~ density + inorganicN, data = Ena) > anova(lm2) …

2
反復測定線形混合効果モデルにlmerを使用する
編集2:私はもともと、1つの因子で繰り返し測定を行う2因子ANOVAを実行する必要があると考えていましたが、現在では線形混合効果モデルがデータに対してより適切に機能すると考えています。私は何が起こる必要があるかほとんど知っていると思いますが、まだいくつかの点で混乱しています。 分析する必要がある実験は次のようになります。 被験者はいくつかの治療グループのいずれかに割り当てられました 各被験者の測定は複数日に行われました そう: 被験者は治療内にネストされています 治療は日と交わる (各被験者は1つの治療のみに割り当てられ、各日に被験者ごとに測定が行われます) データセットには次の情報が含まれています。 件名=ブロッキングファクター(ランダムファクター) 日=被験者内または反復測定因子(固定因子) 治療=対象因子間(固定因子) Obs =測定された(従属)変数 UPDATE OK、それで私は統計学者に行って話しましたが、彼はSASユーザーです。彼は、モデルは次のようにすべきだと考えています。 治療+日+被験者(治療)+日*被験者(治療) 明らかに彼の表記法はR構文とは異なりますが、このモデルは次のことを説明することになっています。 治療(固定) 日(固定) The Treatment * Dayインタラクション 治療内にネストされたサブジェクト(ランダム) 「治療内の被験者」と交差した日(ランダム) だから、これは使用する正しい構文ですか? m4 <- lmer(Obs~Treatment*Day + (1+Treatment/Subject) + (1+Day*Treatment/Subject), mydata) 私は特に、「治療の対象」部分と交差した日が正しいかどうかを心配しています。SASに精通している人、または彼のモデルで何が起こっているのかを理解していると確信している人は、R構文での私の悲しい試みが一致するかどうかについてコメントできますか? モデルの構築と構文の記述(回答とコメントで説明)での私の以前の試みは次のとおりです。 m1 <- lmer(Obs ~ Treatment * Day + (1 | Subject), mydata) サブジェクトが治療内にネストされているという事実にどのように対処しますか?以下m1との違い: …

3
ANOVAでF値とp値を解釈する方法
私は統計が初めてで、現在は分散分析を扱っています。RでANOVAテストを実行します aov(dependendVar ~ IndependendVar) 特にF値とp値が得られます。 私の帰無仮説()は、すべてのグループ平均が等しいというものです。H0H0H_0 Fの計算方法については多くの情報がありますが、F統計の読み方とFとpの接続方法はわかりません。 だから、私の質問は: を拒否するための重要なF値を決定するにはどうすればよいですか?H0H0H_0 各Fには対応するp値があるので、両者は基本的に同じ意味ですか?(たとえば、場合、H 0は拒否されます)p &lt; 0.05p&lt;0.05p<0.05H0H0H_0

1
統計的に有意な分析と有意でない分析でイータ平方/部分イータ平方の解釈と報告方法は?
グループ平均差の効果サイズの尺度として計算されたイータ2乗値と部分イータ2乗値を持つデータがあります。 イータ平方と部分イータ平方の違いは何ですか?同じCohenのガイドラインを使用して両方を解釈できますか(1988年:0.01 =小、0.06 =中、0.13 =大) また、比較テスト(すなわち、t検定または一元配置分散分析)が有意でない場合、効果のサイズを報告するのに使用はありますか?私の頭では、これは「平均差は統計的有意性に達しなかったが、イータの2乗から示される効果の大きさは中程度であるため、依然として注目に値する」と言っているようなものです。または、効果サイズは、補完的なものではなく、有意性テストの代替値ですか?

1
異分散データに対する一元配置分散分析の代替
異なるサイズのサンプル(n_A = 15、n_B = 13、n_C = 12)を含む藻類バイオマスの3つのグループ(、B、C)からのデータがあり、これらのグループが同じ母集団からのものかどうかを比較したいと思います。BAAABBBn A = 15 n B = 13 n C = 12CCCnA=15nA=15n_A=15nB=13nB=13n_B=13nC=12nC=12n_C=12 一元配置分散分析は間違いなく進むべき道ですが、私のデータに対して正規性テストを実施する際には、ヘテロスケダシティーが主な問題のようです。私の生データは、変換なしで、臨界値(F _ {\ rm crit} = 4.16)より非常に高い分散比(Fmax=19.1Fmax=19.1F_{\max} = 19.1)を生成したため、一元配置分散分析を実行できません。Fcrit=4.16Fcrit=4.16F_{\rm crit} = 4.16 また、データを正規化するための変換も試みました。さまざまな変換(対数、平方根、平方)の試行後でも、\ log_ {10}変換による変換後に生成された最低のF _ {\ max}は7.16であり、F _ {\ rm crit}と比較して依然として高かった。FmaxFmaxF_{\max}log10log10\log_{10}7.167.167.16FcritFcritF_{\rm crit} ここから誰がここからどこに行くべきかをアドバイスできますか?データで正規化する他の変換方法は考えられません。一元配置分散分析に代わるものはありますか? PS:私の生データは以下の通りです: A: 0.178 0.195 0.225 0.294 0.315 0.341 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.