タグ付けされた質問 「ancova」

共分散分析。これは実際には多重線形回帰の特別なケースであり、カテゴリカルなものに加えていくつかの連続的な共変量を伴うANOVAのような設定で使用されます。

5
治療前後のコントロール設計を分析する際のベストプラクティス
次の一般的な設計を想像してください。 100人の参加者が治療グループまたは対照グループにランダムに割り当てられます 従属変数は数値であり、治療の前後に測定されます このようなデータを分析するための3つの明白なオプションは次のとおりです。 混合ANOVAの時間交互作用効果によるグループのテスト IVとして条件、共変量として事前測定値、DVとして事後測定値を使用してANCOVAを実行します。 IVとして条件、DVとして変更前後のスコアでt検定を実行します 質問: そのようなデータを分析する最良の方法は何ですか? あるアプローチを別のアプローチよりも好む理由はありますか?

2
重回帰は共変量を実際に「制御」できますか?
私たちはすべて、考えられるすべての潜在的な交絡因子を重回帰モデルに含めることで、非ランダム化予測子Xと結果の間の因果リンクを確立しようとする観察研究に精通しています。このように、すべての交絡因子を「制御する」ことにより、関心のある予測子の効果を分離します。 主に私の統計学のクラスのさまざまな教授によって行われたオフハンドの発言に基づいて、私はこの考えにますます不快感を抱いています。それらはいくつかの主要なカテゴリーに分類されます。 1.考え、測定する共変量のみを制御できます。 これは明らかですが、実際に最も有害で乗り越えられないものなのでしょうか。 2.このアプローチは、過去にugい間違いを引き起こしました。 たとえば、Petitti&Freedman(2005)は、何十年にもわたって統計的に調整された観察研究が、心臓病のリスクに対するホルモン補充療法の効果に関する悲惨な誤った結論に至った経緯について議論しています。後のRCTでは、ほぼ逆の効果が見つかりました。 3.予測変数と結果の関係は、共変量を制御すると奇妙に動作する可能性があります。 Yu-Kang Tu、Gunnell、&Gilthorpe(2008) は、主のパラドックス、シンプソンのパラドックス、サプレッサー変数など、いくつかの異なる症状を議論しています。 4.単一モデル(重回帰)で共変量を適切に調整し、同時に予測結果の関係をモデル化することは困難です。 傾向スコアや交絡因子の層別化などの方法の優位性の理由としてこれを聞いたことがありますが、本当にそれを理解しているかはわかりません。 5. ANCOVAモデルでは、対象の共変量と予測子が独立している必要があります。 もちろん、対象の予測変数と相関しているため、交絡因子を正確に調整します。したがって、モデルは、必要なときに正確なインスタンスで失敗するようです。議論は、調整はランダム化試験でのノイズ低減にのみ適しているということです。Miller&Chapman、2001年は素晴らしいレビューを与えます。 だから私の質問は: これらの問題や私が知らないその他の問題はどれほど深刻ですか? 「すべてをコントロールする」研究を見たとき、私はどれほど恐れるべきでしょうか? (この質問が議論の領域にあまり深く入り込んでいないことを望み、それを改善するための提案を喜んで誘います。) 編集:新しい参照を見つけた後、ポイント5を追加しました。

4
モデルを作成するときに、統計的に有意ではない共変量を「保持」する必要がありますか?
モデルの計算にはいくつかの共変量がありますが、そのすべてが統計的に有意ではありません。そうでないものは削除すべきですか? この質問は現象について説明していますが、私の質問には答えていません 。ANCOVAの共変量の有意でない影響をどのように解釈するか しかし、その質問に対する答えには、有意ではない共変量を取り出すことを示唆するものは何もありません。そのため、今のところ、それらは留まるべきだと信じています。あるしきい値(共変量には当てはまらないと思われる有意性しきい値)を超える量を必ずしも説明することなく、分散の一部を説明できます(したがって、モデルを支援します)。 CVのどこかに別の質問があり、その答えは有意性に関係なく共変量を保持する必要があることを暗示しているようですが、それについては明確ではありません。(私はその質問にリンクしたいのですが、たった今再び追跡することができませんでした。) それで...統計的に有意ではない共変量は、モデルの計算で保持されるべきですか?(とにかく計算によって共変量がモデル出力に決して含まれないことを明確にするために、この質問を編集しました。) 複雑さを追加するために、データの一部のサブセット(個別に処理する必要のあるサブセット)の共変量が統計的に有意な場合はどうでしょうか。デフォルトでは、このような共変量を保持します。そうしないと、異なるモデルを使用するか、いずれかのケースで統計的に有意な共変量が失われます。ただし、このスプリットケースについても回答がある場合は、そのことをお知らせください。

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

6
ANOVAとANCOVAを理解するのに良いリソースですか?
私は論文の実験を行っており、ANOVAとANCOVAがどのように機能するかを適切に理解するための興味深い本/ウェブサイトを探しています。数学のバックグラウンドが良いので、必ずしも下品な説明は必要ありません。 ANCOVAの代わりにANOVAをいつ使用するかを決定する方法も知りたいです。

3
ダミーコーディングとANCOVAで重回帰を使用する場合
私は最近、ANCOVAを使用して2つのカテゴリ変数と1つの連続変数を操作する実験を分析しました。しかし、レビューアーは、ダミー変数としてコード化されたカテゴリー変数を使用した重回帰が、カテゴリー変数と連続変数の両方を使用した実験により適したテストであることを示唆しました。 ANCOVAとダミー変数を使用した重回帰を使用するのが適切な場合と、2つのテストから選択する際に考慮すべき要因は何ですか? ありがとうございました。

4
治療の影響を受ける共変量で必要な良いデータの例
私は多くのRデータセット、DASLでの投稿、および他の場所を見てきましたが、実験データの共分散分析を説明する興味深いデータセットの良い例をあまり見つけていません。統計の教科書には、不自然なデータを含む「おもちゃ」のデータセットが多数あります。 例があります: データは本物であり、興味深いストーリーがあります 少なくとも1つの治療因子と2つの共変量があります 少なくとも1つの共変量は1つ以上の治療因子の影響を受け、1つは治療の影響を受けません。 観察的ではなく実験的、できれば バックグラウンド 私の本当の目標は、Rパッケージのビネットに入れる良い例を見つけることです。しかし、より大きな目標は、共分散分析におけるいくつかの重要な懸念を示すために、人々が良い例を見る必要があるということです。次の構成シナリオを検討してください(そして、農業に関する私の知識はせいぜい表面的なものであると理解してください)。 肥料を区画にランダム化して、作物を植える実験を行います。適切な生育期間の後、作物を収穫し、品質特性を測定します-それが応答変数です。しかし、栽培期間中の総降雨量、収穫時の土壌酸性度、そしてもちろんどの肥料が使用されたかを記録しています。したがって、2つの共変量と1つの処理があります。 結果データを分析する通常の方法は、因子としての処理と共変量の相加効果をもつ線形モデルを適合させることです。次に、結果を要約するために、平均降水量と平均土壌酸性度3での各肥料のモデルからの予測である「調整済み平均」(別名最小二乗平均)を計算します。これにより、すべてが平等になります。これらの結果を比較すると、降雨量と酸性度が一定に保たれるためです。 しかし、これはおそらく間違ったことです。肥料はおそらく土壌の酸性度と反応に影響を与えるからです。治療効果には酸性度への影響が含まれるため、調整された手段は誤解を招く可能性があります。これを処理する1つの方法は、モデルから酸性度を取り除くことです。その後、降雨量を調整した手段で公平な比較を行います。しかし、酸性度が重要な場合、この公平性は、残留変動の増加という大きな犠牲を伴います。 モデルの元の値の代わりに調整されたバージョンの酸性度を使用することにより、この問題を回避する方法があります。私のRパッケージlsmeansの今後の更新により、これは非常に簡単になります。しかし、私はそれを説明する良い例が欲しいです。いくつかの優れた実例となるデータセットを教えてくれた人に感謝し、正当に認めます。

1
計画された実験でANOVAとANCOVAを選択する方法は?
私は次の実験を行っています: DV:スライスの消費(継続的またはカテゴリー化可能) IV:健全なメッセージ、不健全なメッセージ、メッセージなし(コントロール)(ランダムに割り当てられた3つのグループ-カテゴリ)これは、スライスの健全性について操作されたメッセージです。 次のIVは、個人差変数と見なすことができます。 衝動性(これはカテゴリ別の場合があります。つまり、高対低、または連続であり、スケールで測定されます) 甘い好み(これは、質問ごとに選択する3つのオプションであるアンケートによっても測定されます) BMI-それに応じて参加者の体重を測定します(これはカテゴリカルまたは継続的と見なすこともできます)。 グループは3つのグループの1つにランダムに割り当てられるため、ある種のANOVAを行っており、おそらくIVがDVに最も影響するだけでなく、研究によって示されるようにIVいくつかの組み合わせの間に関係があること。 しかし、IVをすべてカテゴリに分類するのか、継続的または混合にするのが最善かを知る必要があるため、これについて完全に確信はありません。 または、ANCOVAは可能性または回帰でさえありますが、それらがグループに割り当てられ、調査への回答に基づいて分類されていることについてはわかりません。 これが理にかなっていて、私の質問について誰かから聞いてくれることを楽しみにしています。

4
RでANCOVAを実行する方法
植物着生植物の密度に関するデータのANCOVA分析を行いたい。最初は、NとSの2つの斜面の間で植物密度に違いがあるかどうかを知りたいのですが、宿主植物の高度、キャノピーの開放性、高さなどの他のデータがあります。私の共変量は2つの勾配(NとS)でなければならないことを知っています。Rで実行するこのモデルを作成しましたが、うまく機能するかどうかはわかりませんが。また、シンボル+またはを使用した場合の違いを知りたい*です。 model1 <- aov(density~slope+altitude+canopy+height) summary(model1) model1
17 r  ancova 

1
一般化線形モデルの仮定
単一の応答変数(連続/正規分布)と4つの説明変数(3つは因子で、4つ目は整数)を使用して、一般化線形モデルを作成しました。アイデンティティリンク関数でガウス誤差分布を使用しました。現在、モデルが一般化線形モデルの仮定を満たしていることを確認しています: Yの独立 正しいリンク機能 説明変数の正しい尺度 影響のある観測はありません 私の質問は、モデルがこれらの仮定を満たしていることをどのように確認できますか?最良の出発点は、各説明変数に対して応答変数をプロットすることです。ただし、説明変数のうち3つはカテゴリ(1〜4レベル)であるため、プロットで何を探す必要がありますか? また、説明変数間の多重共線性と相互作用をチェックする必要がありますか?はいの場合、カテゴリー説明変数を使用してこれを行うにはどうすればよいですか?

4
ANCOVAでの事後テスト
質問: 共変量の効果を調整した後、グループ平均間の差の事後検定を行うための良い方法は何ですか? プロトタイプの例: 4つのグループ、グループごとに30人の参加者(たとえば、4つの異なる臨床心理学集団) 従属変数は数値です(インテリジェンススコアなど) 共変量は数値です(たとえば、社会経済的地位の指標) 研究の質問は、共変量を制御した後、従属変数でグループのペアが有意に異なるかどうかに関するものです。 関連する質問: 好ましい方法は何ですか? Rではどのような実装が利用可能ですか? 共変量が事後テストの実施手順をどのように変更するかについての一般的な参考文献はありますか?

1
観測48で革新的な異常値をARIMAモデルに組み込むにはどうすればよいですか?
私はデータセットに取り組んでいます。いくつかのモデル識別手法を使用した後、私はARIMA(0,2,1)モデルを思いつきました。 R detectIOのパッケージの関数を使用して、元のデータセットの48回目の観測で革新的な外れ値(IO)TSAを検出しました。 この外れ値をモデルに組み込んで、予測に使用するにはどうすればよいですか?Rではそれから予測を行うことができない可能性があるため、ARIMAXモデルを使用したくありません。これを行う方法は他にありますか? これが私の値です。 VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
同じデータセットで2つの線形モデルを実行することは許容されますか?
複数のグループ(自然なグループが事前に定義されたもの)の線形回帰の場合、次の2つの質問に答えるために、同じデータセットで2つの異なるモデルを実行することは許容できますか? 各グループには非ゼロの勾配と非ゼロの切片がありますか?グループ回帰内の各パラメーターは何ですか? グループメンバーシップに関係なく、非ゼロの傾向と非ゼロの切片はありますか?グループ全体の回帰のパラメーターは何ですか? Rでは、最初のモデルはでありlm(y ~ group + x:group - 1)、推定された係数は各グループの切片と勾配として直接解釈できます。2番目のモデルはですlm(y ~ x + 1)。 代替案はlm(y ~ x + group + x:group + 1)、であり、これにより、係数の複雑な要約表が得られ、グループ内の勾配と切片は、いくつかの参照からの勾配と切片の差から計算する必要があります。また、最後のグループの差異(場合によっては)のp値を取得するために、グループを並べ替えてモデルをもう一度実行する必要があります。 これは2つの別個のモデルを使用して、推論に何らかの悪影響を及ぼしますか、またはこの標準的な方法に悪影響を及ぼしますか? これをコンテキストに入れるために、xを薬物の投与量と見なし、グループを異なる人種と見なします。医師の特定の人種、または薬剤が効く人種の用量反応関係を知ることは興味深いかもしれませんが、(ヒト)母集団全体の用量反応関係を知ることも興味深い場合があります公衆衛生担当官の人種に関係なく。これは、グループ内とグループ全体の両方の回帰に個別に関心を持つ方法の単なる例です。用量反応関係が線形であるべきかどうかは重要ではありません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.