タグ付けされた質問 「anova」

ANOVAは、複数のグループ平均を比較するための統計モデルおよび一連の手順であるVArianceのANalysisの略です。ANOVAモデルの独立変数はカテゴリカルですが、ANOVAテーブルを使用して連続変数をテストすることもできます。

2
参照レベルを変更すると、一部の回帰推定は符号の変化によって異なるが、他の推定は異なるのはなぜですか?
継続的な結果yと2つの要因予測因子があり、それぞれに2つのレベルがあるとします。私のカテゴリカル予測子の1つは、drug2つのレベル( "A"または "B")を持つことができ、もう1つはsmokeYesです。回帰モデルを実行するとき、次のように、ベースラインまたは参照レベルをdrug"A"に選択できますmodel1。 set.seed(123) y<-rnorm(100, 100, 10) drug.ab<-factor(sample(c("A", "B"), 100, T), levels=c("A", "B")) drug.ba<-factor(drug.ab, levels=c("B", "A")) smoke<-factor(sample(c("Yes", "No"), 100, T), levels=c("No", "Yes")) #model1: coef(summary(lm(y~drug.ab*smoke))) Estimate Std. Error t value Pr(>|t|) (Intercept) 100.7484158 2.065091 48.7864379 1.465848e-69 drug.abB 0.9030541 2.796146 0.3229639 7.474250e-01 smokeYes -0.8693598 2.632484 -0.3302431 7.419359e-01 drug.abB:smokeYes 0.8709116 3.746684 0.2324487 8.166844e-01 …

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

2
カテゴリー応答変数予測
次の種類のデータ(Rでコード化)があります。 v.a = c('cat', 'dog', 'dog', 'goat', 'cat', 'goat', 'dog', 'dog') v.b = c(1, 2, 1, 2, 1, 2, 1, 2) v.c = c('blue', 'red', 'blue', 'red', 'red', 'blue', 'yellow', 'yellow') set.seed(12) v.d = rnorm(8) aov(v.a ~ v.b + v.c + v.d) # Error v.bまたはの値にの値v.cを予測する能力があるかどうかを知りたいのですがv.a。私は(上記のように)分散分析を実行しますが、私の応答変数は序数ではないため(カテゴリカルであるため)、意味がありません。私は何をすべきか?

2
分割プロットについて
誰かが分割プロットの背後にある直感を説明できますか? 私が理解していることから、それは本質的に制限されたランダム化です。しかし、私はまだそれを完全に理解していません。誰かがそれをより明確にするために私に与えることができるリソースまたは例はありますか?

2
R出力解釈からのAnova
統計学者が通常anova出力をどのように解釈するかについて質問があります。Rからanova出力があるとします。 > summary(fitted_data) Call: lm(formula = V1 ~ V2) Residuals: Min 1Q Median 3Q Max -2.74004 -0.33827 0.04062 0.44064 1.22737 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.11405 0.32089 6.588 1.3e-09 *** V2 0.03883 0.01277 3.040 0.00292 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ …

2
Rの2因子反復測定ANOVA後の事後検定?
Rで2因子(両方とも被験者内)のANOVAを繰り返し測定した後、事後テスト(Tukey HSD)を実行する方法に関する解決策を見つけるのに問題があります。ANOVAには、aov -functionを使用しました。 summary(aov(dv ~ x1 * x2 + Error(subject/(x1*x2)), data=df1)) 他の質問への回答を読んだ後、他の機能(lmeなど)を使用してANOVAを再実行する必要があることを知りました。これが私が思いついたものです。 Lme.mod <- lme(dv ~ x1*x2, random=list(subject=pdBlocked(list(~1, pdIdent(~x1-1), pdIdent(~x2-1)))), data=df1) anova(Lme.mod) 主な効果はどちらも有意でしたが、相互作用の効果はありませんでした。次に、これらの関数を事後比較に使用しました。 summary(glht(Lme.mod, linfct=mcp(x1="Tukey"))) summary(glht(Lme.mod, linfct=mcp(x2="Tukey"))) しかし、いくつかの問題がありました: まず、Rヘルプファイルには、「双方向ANOVAまたはANCOVAモデル(...)multcompバージョン1.0-0以降で対象のパラメーターを定義する場合、mcp関数は注意して使用する必要があります。主な効果の比較が生成されます。のみ、共変量と交互作用を無視します(古いバージョンは交互作用項で自動的に平均化されました)警告が表示されます。そして確かに、私は次の警告メッセージを受け取りました: Warning message: In mcp2matrix(model, linfct = linfct) : covariate interactions found -- default contrast might be inappropriate もう1つの不可解な点は、両方の主要な効果は有意でしたが、要因の1つ(x1)の事後比較に有意差はなかったということです。これに出会ったことはありません。スクリプト/分析は正しい/適切ですか、それとも欠けているものはありますか?どんな助けでも大歓迎です!

2
さまざまなパンフレットの比較成功の見積もり
現実世界の問題 私のクライアントの1つは、サブスクライブしているユーザーリストにダイレクトメーラーを送信する準備をしていて、この統計的な課題が浮上しました。 彼らのマーケティングチームには3つの異なるパンフレットがあり、どのパンフレットが最も高い応答率を得るか知りたいと考えています。また、厚手の封筒で手書きのアドレスをメーラーに送信すると、通常の封筒と比較して結果が向上するかどうかも知りたいと考えています。 次のことを前提とします。 各パンフレットのための(iは= 1 、2 、3)、そのパンフレット受信者実際に開き、それが読み取る確率で応答するR Iを、R iは、そのパンフレットのため真の応答率でありますbibib_ii=1,2,3i=1,2,3i = 1,2,3ririr_iririr_i 厚くて高品質の封筒の真の開封率は、通常の封筒の開封率はo n o r m a lです。othickothicko_{thick}onormalonormalo_{normal} 以前の郵送から、実際に観察された回答率は約1%から5%の間になると予想しています。 私たちの目標 送付するメールの数を最小限に抑えながら、最適なパンフレットを見つけたいと考えています。また、2つのオープンレートを推定します。 実際に送信されたメーラーから経験的応答率を収集すると、応答率間の真の差が0.5%より大きい場合、p &lt; .05で統計的に有意であるとしてその差を検出できるはずです。ririr_ip&lt;.05p&lt;.05p < .05 これまでの私の考え 人のユーザーが各パンフレットを受け取るように、3つのパンフレットのそれぞれにユーザーをランダムに割り当てます。応答率の違いを検出するために必要な感度を達成するために必要なNを知りたい。最悪のケースを想定すると、1%と1.5%の真の率の差を検出できる必要があります。この違いのSDは√NNNNNN(.01∗.99)+(.015∗.985)N−−−−−−−−−−−−−√(.01∗.99)+(.015∗.985)N\sqrt{\frac{(.01*.99) + (.015*.985)}{N}}N=3948N=3948N = 3948 ご質問 これは最適な設計ですか、それとももっとうまくできるでしょうか? NNN oN 、O 、R 、M Lonormalo_{normal}oT H I C Kothicko_{thick} r私rir_iNNN oN 、O 、R 、M …

1
Nested / SplitModel-RepeatedMeasures / MixedModel ANOVA:Rでのネストとスクリプトのレベル
私のデータセットには次の変数があります: トリートメント(4種類固定) ロケーション(8ロケーション-固定) 場所の位置(場所ごとに3つの位置-固定) サンプルは各位置で取得されます(位置ごとに3つのサンプル-ランダム) 時間(2つのサンプリング時間-固定) 鉱化率(採取したサンプルの分析結果として) 各治療をテストするために2つの場所が使用されます(つまり、4つの治療、治療ごとに2つの場所、合計8つの場所)。 R上記の変数を使用して、分割プロット(/ nested?)反復測定(/ mixed model?)ANOVAを実行したいと思います。 Q.1。これは適切ですか? 私の目標は、1)位置、2)治療、3)時間、および4)すべての相互作用(つまり、pos * treat *、pos * time、treat * time、pos * treat * time)に影響があるかどうかを確認することです石灰化率。 Q 2.場所は治療でネストされていますか?サンプルは適切な位置にネストされていますか? Q 3.要因間および内要因とは何ですか? Q 4.主題/プロットは何ですか?-場所、位置、サンプル、レートのどれですか? Q 5. R式で繰り返し測定として時間を使用するにはどうすればよいですか? Q 6. aov、lme、またはezANOVAを使用しますか? Q 7.独立した独立変数とそれらの相互作用を適切なR式にコード化するにはどうすればよいですか? 私は文字通りこれを数日間理解しようとしてきましたが、意味のある答えを見つけることができないようです...

3
SPSSを使用した2x3混合設計ANOVAの事後テスト?
実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group(コントロール、実験)、time(最初、2、3)、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。 グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。 したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です! 記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。 インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。 どう思いますか?どちらが正しい方法でしょうか?
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 

2
二元配置分散分析(3x3)のノンパラメトリック
私の従属変数は連続的で、非正規です(Shapiro-Wilkテストによると左に歪んでいます)。私は2つの独立した変数を持っています(色別のグループ、食品の種類)。各独立変数には3つのレベルがあります。各独立変数の観測数は等しくありません。 私はフリードマン検定やシャイラーレイヘア検定などのノンパラメトリック検定を調べましたが、どちらも適切ではないようです(観測数が異なるため)。 誰かが提案できる代替テストはありますか?SASを使用しています。

2
高次の相互作用が重要な場合に低次の相互作用を解釈するにはどうすればよいですか?
有意な高次相互作用効果が存在する場合の低次相互作用項の解釈について質問があります。 2(因子)× 2(因子B)× 2(因子C)の設計があり、最高次数の相互作用(A × B × C)が重要であり、低次の相互作用項(A × B)も重要であるとします。 。重要なA × B × Cの相互作用は、A × Bの相互作用を解釈不能にしますか(重要な相互作用が存在する場合に主効果が解釈不能になるのと同様に)?あAA××\timesBBB××\timesCCCA × B ×CA×B×CA\times B\times CA × BA×BA\times BA × B × CA×B×CA\times B\times CA×BA×BA\times B このような状況では、一連の事後比較/計画比較を実行して、さまざまな条件がどのように異なるかを確認する必要がありますか?

4
1つのグループにほとんどまたはまったく差異がない場合、テストで実行できますか?
基準と比較している4つのグループがあります。私のグループの1つでは、すべての参加者がすべての項目で同じように回答しました。つまり、差異はありません。 ANOVAでそれをどのように処理しますか? また、エラー条件が出ないので、テストでそれを基準と比較して実行するとどうなりますか?生徒に含めているかどうかわからない1人の参加者を含めた場合、分散は37のうちの1つの異なる観測値で完全に均一ではありませんが、実行すると、分散が小さすぎるため有意ではありません。 計算的にできることは何もないことを理解しています。私はそれを概念的にどのように扱うかを尋ねています。

2
2x2 ANOVAで正規性をテストする方法は?
研究デザイン:海面上昇に関するいくつかの情報を参加者に示し、時間スケールと潜在的な上昇の大きさの両方の観点から、さまざまな方法で情報に焦点を合わせました。したがって、2(時間:2050または2100)x 2(マグニチュード:中または高)のデザインがありました。情報を受け取らなかった2つのコントロールグループもあり、私のDVへの質問に答えるだけでした。 質問: 私は常にセル内の正規性をチェックしました。このデザインの2x2の部分では、4つのグループ内の正規性を探すことになります。ただし、ここでいくつかの議論を読んだことで、自分の方法を2番目に推測してしまいました。 最初に、私は残差の正規性を見なければならないことを読みました。(SPSSまたはその他の場所で)残差の正規性を確認するにはどうすればよいですか?4つのグループ(コントロールを含めて6つ)ごとにこれを行う必要がありますか? また、グループ内の正規性は残差の正規性を意味することも読みました。これは本当ですか?(文献参照)繰り返しますが、これは4つのセルのそれぞれを個別に見ることを意味しますか? つまり、(2x2)データが正常性の仮定に違反していないかどうかを判断するためにどのような手順を実行しますか? たとえ私を正しい方向に向けるだけであっても、参照は常に高く評価されています。

1
ランダム化された順序で提示された3つ以上の条件で繰り返し測定ANOVAを分析する方法は?
環境: 私の質問は私の領域の典型的なデザインに関するものです。研究者が被験者のグループ(たとえば10)を取り、次に3つの異なる条件をそれらに適用して、応答変数の変化を測定します。普通の水、そしてフルーツジュース(例えば)。すべての被験者はすべての治療を受けますが、効果が「洗い流される」のに十分な時間があるランダムな順序で。 分析: Kuehl(2000)(Kuehl、RO(2009)Design of Experiments:Statistical主義of research design and analysis、Duxbury Press、CA、p497 2nd Ed。) 各治療がランダムな順序で各被験者に投与されると、被験者はランダム化された完全なブロック設計のランダムブロックになります。」 次に、対応する分析を表示します。 この場合、主題は変量効果ですが、迷惑またはブロック要因であり、統計モデルはブロック要因の有意性をテストしますが、その有意性にはあまり関心がありません。ただし、多くの研究者(およびレビュアー!)は、そのような設計は、Huynh-Feldt条件のMauchlyテスト(反復測定としての取り扱い)を使用した反復測定設計として分析する必要があると考えています。ただし、これは、時間要素が分析されている場合(たとえば、0分、10分、30分、60分で観測が行われる場合など)に適しています。この場合、特に不均等な時間間隔が使用されている場合、時点のペア間の共分散は合理的に変化すると予想される可能性があります。[実際、この場合SASを使用してさまざまな共分散構造をモデル化します(たとえば、 被験者がブロックファクターであり、異なる治療が被験者ごとに異なるランダムな順序で投与される場合、これは、観測間の相関が被験者ごとに異なるため、化合物の対称性を仮定できることを理解しました。 質問: ランダムな順序で提示された3つ以上の条件を持つ反復測定ANOVAをどのように分析する必要がありますか? 複合対称性を仮定することは理にかなっていますか?

1
通常の線形モデルに対するANOVAの利点は何ですか?
Rを試してみたところ、anova()にはlmタイプのオブジェクトが必要であることがわかりました。しかし、なぜこの後anovaを続けるべきなのでしょうか。 &gt; x &lt;- data.frame(rand=rnorm(100), factor=sample(c("A","B","C"),100,replace=TRUE)) &gt; head(x) rand factor 1 0.9640502 B 2 -0.5038238 C 3 -1.5699734 A 4 -0.8422324 B 5 0.2489113 B 6 -1.4685439 A &gt; model &lt;- lm(x$rand ~ x$factor)) &gt; summary(model) Call: lm(formula = x$rand ~ x$factor) Residuals: Min 1Q Median 3Q Max -2.74118 -0.89259 …
8 r  anova 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.