タグ付けされた質問 「anova」

ANOVAは、複数のグループ平均を比較するための統計モデルおよび一連の手順であるVArianceのANalysisの略です。ANOVAモデルの独立変数はカテゴリカルですが、ANOVAテーブルを使用して連続変数をテストすることもできます。

1
観測48で革新的な異常値をARIMAモデルに組み込むにはどうすればよいですか?
私はデータセットに取り組んでいます。いくつかのモデル識別手法を使用した後、私はARIMA(0,2,1)モデルを思いつきました。 R detectIOのパッケージの関数を使用して、元のデータセットの48回目の観測で革新的な外れ値(IO)TSAを検出しました。 この外れ値をモデルに組み込んで、予測に使用するにはどうすればよいですか?Rではそれから予測を行うことができない可能性があるため、ARIMAXモデルを使用したくありません。これを行う方法は他にありますか? これが私の値です。 VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
これらのカスタムコントラストを解釈する方法は?
私は、カスタムコントラストを使用して(種ごとに)一元配置分散分析を行っています。 [,1] [,2] [,3] [,4] 0.5 -1 0 0 0 5 1 -1 0 0 12.5 0 1 -1 0 25 0 0 1 -1 50 0 0 0 1 ここでは、強度0.5を5と比較し、5を12.5と比較しています。これらは私が取り組んでいるデータです 次の結果 Generalized least squares fit by REML Model: dark ~ intensity Data: skofijski.diurnal[skofijski.diurnal$species == "niphargus", ] AIC BIC logLik …

2
3因子反復測定分散分析の有効な事後分析とは何ですか?
私は3因子反復測定ANOVAを実行しました。どのような事後分析が有効ですか? これは完全にバランスの取れた設計(2x2x2)であり、因子の1つに被験者内の反復測定があります。Rで反復測定ANOVAへの多変量アプローチを知っていますが、私の最初の本能は、ANOVAの単純なaov()スタイルを続行することです。 aov.repeated <- aov(DV ~ IV1 * IV2 * Time + Error(Subject/Time), data=data) DV =応答変数 IV1 =独立変数1(2レベル、AまたはB) IV2 =独立変数2(2レベル、はいまたはいいえ) IV3 =時間(2レベル、前または後) 被験者=被験者ID(合計40被験者、IV1の各レベルに対して20:nA = 20、nB = 20) summary(aov.repeated) Error: Subject Df Sum Sq Mean Sq F value Pr(>F) IV1 1 5969 5968.5 4.1302 0.049553 * IV2 1 3445 3445.3 2.3842 …

1
クラス内相関係数対F検定(一元配置分散分析)?
クラス内相関係数と一元配置分散分析について少し混乱しています。私が理解しているように、どちらも、グループ内の観測値が他のグループの観測値とどの程度類似しているかを示しています。 誰かがこれをもう少しよく説明できますか、そしておそらく各方法がより有利である状況を説明できますか?

1
aovモデルの共変量の次数を変更すると、p値の有意性が変化するのはなぜですか?
482観測のデータセットがあります。 data=Populationfull 3つのSNPの遺伝子型関連分析を行います。私は分析用のモデルを構築しようとしていますが、aov(y〜x、data = ...)を使用しています。1つの特性について、次のようにモデルに含めたいくつかの固定効果と共変量があります。 Starts <- aov(Starts~Sex+DMRT3+Birthyear+Country+Earnings+Voltsec+Autosec, data=Populationfull) summary(Starts) Df Sum Sq Mean Sq F value Pr(>F) Sex 3 17.90 5.97 42.844 < 2e-16 *** DMRT3 2 1.14 0.57 4.110 0.017 * Birthyear 9 5.59 0.62 4.461 1.26e-05 *** Country 1 11.28 11.28 81.005 < 2e-16 *** Earnings 1 …
10 r  anova 

3
母集団のr二乗変化の信頼区間を取得する方法
簡単な例のために、2つの線形回帰モデルがあると仮定します モデル1は、3つの予測因子を持っているx1a、x2bと、x2c モデル2には、モデル1からの3つの予測子と2つの追加の予測子がx2aあり、x2b 母集団の分散が説明人口回帰式がある モデル1及びρ 2 (2 )増分分散がある集団におけるモデル2によって説明するモデル2についてΔは、ρ 2 = ρ 2 (2 ) - ρ 2 (1 )ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δρ2=ρ2(2)−ρ2(1)Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} 私は、の推定のための標準誤差と信頼区間を得ることに興味を持ってい。例にはそれぞれ3および2の予測子が含まれていますが、私の研究対象は、さまざまな数の予測子(たとえば、5および30)に関係しています。私が最初に考えたのは使用していた Δ R 2 、A D J = R 2 のD J (2 ) - R 2 次元J (1 )推定量として、それをブートストラップが、私は確かに、これは適切であるかどうかではなかったです。Δρ2Δρ2\Delta\rho^2Δr2adj=r2adj(2)−r2adj(1)Δradj2=radj(2)2−radj(1)2\Delta r^2_{adj} = r^2_{adj(2)} - r^2_{adj(1)} ご質問 されたの合理的な推定量Δは、ρ …

1
Rの反復測定ANOVAでエラー項を記述する方法:Error(subject)vs Error(subject / time)
私の質問は、Rの反復測定ANOVAでError()項を指定する以前の投稿に非常に密接に関連してい ます。ただし、エラー項を定義する方法について、もっと洞察を得たいと思います。 私が双方向反復ANOVAを持っているとします。グループ効果間の要因は治療(対照vsプラセボ)ですが、時間は4回(T1〜T4)を繰り返し測定したグループ内効果です。患者IDは件名として記録されます。ここでは、http://gjkerns.github.io/R/2012/01/20/power-sample-size.htmlのチュートリアルの例からデータを借りた ので、データは次のようになります。 Time Subject Method NDI 0min 1 Treat 51.01078 15min 1 Treat 47.12314 48hrs 1 Treat 26.63542 96hrs 1 Treat 20.78196 0min 2 Treat 42.61345 15min 2 Treat 32.77171 分散分析を適用するには: aovComp <- aov(NDI ~ Time*Method + Error(Subject/Time), theData) summary(aovComp) Error: Subject Df Sum Sq Mean Sq F …

4
Rの離散時間イベント履歴(生存)モデル
Rに離散時間モデルを適合させようとしていますが、その方法がわかりません。 従属変数を時間監視ごとに1つずつ異なる行に編成し、glm関数をlogitまたはcloglogリンクで使用できることを読みました。この意味で、私は3つの列があります:ID、Event(各time-obsで1または0)およびTime Elapsed(観測の開始以降)、および他の共変量。 モデルに合うようにコードを書くにはどうすればよいですか?従属変数はどれですか?Event従属変数として使用できTime Elapsed、共変量に含めることができると思います。しかし、どうなりIDますか?必要ですか? ありがとう。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

1
Rでの反復測定ANOVAでのError()項の指定
Rでの2方向反復測定分散分析の誤差項の定義に問題があります。私のデータは、木から抽出されたコアに沿った3つの半径方向位置(内側、中央、および外側)の木材密度推定から構成されています。合計20の木の種、各種の6個体、および各木からの2つのコアがあります。 半径方向の位置が木材の密度に及ぼす影響をテストするために、個人間のばらつきを説明する誤差項を含む次の2元配置分散分析モデルを使用します。 radpos.aov <- aov(WD ~ Species*Radialposition + Error(Individual), data=Radpos) ただし、エラー項の指定が適切かどうかはわかりません。コア内の変動性も考慮する必要がありますか?私にとって、この変動性は、私が興味を持っている主な要因である放射状の位置による変動と同じです。 繰り返し測定ANOVAでの誤差項の指定について読むことに少し時間を費やしましたが、実際には誤差項の指定に問題があります。私はこれでいくつかの助けに感謝します。

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

5
Rでの効果の測定のために2乗したオメガ?
私が読んでいる統計の本は、私の実験の効果を測定するためにオメガ二乗を推奨しています。私は、分割プロット計画(被験者内と被験者間設計の混合)を使用して、被験者内係数がp <0.001およびF = 17で統計的に有意であることをすでに証明しています。 今、私は違いがどれほど大きいかを探しています... R(またはpython?私は知っています...夢を見ることができます;)のどこかにオメガの2乗の実装がありますRに関連するものをインターネットで検索すると痛み*は、私はCでものを見つけるために管理する方法がわかりません ありがとう!

2
テストでのマンホイットニーテストの能力
したがって、Mann Whitney U検定は、正規性と均一分散のt検定の仮定が満たされている場合、t検定と比較して約95%強力です。これらの仮定が満たされていない場合、Mann Whitney U検定はt検定よりも強力であることも知っています。私の質問は、仮定が満たされていないデータでのマンホイットニー検定は、仮定が満たされているデータでのt検定と同じくらい、またはほとんど強力ですか? テストで実行するという仮定に基づいて電力計算をしている人をよく目にするので、私は尋ねています。彼らはデータを収集した後、データを探索し、代わりにマンホイットニー検定を使用することを決定します。テストの変更が電力にどのように影響するかを再訪しません。 ありがとう!

3
複数の表面接触後に指で拾った細菌:非正常データ、反復測定、交差した参加者
はじめに 2つの条件(A =手袋を着用、B =手袋を着用しない)で、汚染された表面に大腸菌を繰り返し接触している参加者がいます。手袋をした場合と使用しない場合の指先の細菌の量に違いがあるかどうか、また接触の数に違いがあるかどうかを知りたいです。どちらの要素も参加者内にあります。 実験方法: 参加者(n = 35)は、同じ指で各正方形に1回タッチして、最大8つのコンタクトを作成します(図aを参照)。 次に、参加者の指を拭いて、接触するたびに指先の細菌を測定します。次に、新しい指を使用して、1〜8個の接点など、さまざまな数の表面に触れます(図bを参照)。 これが実際のデータです。実際のデータ データは正常ではないため、下のバクテリアの分布| NumberContactsを参照してください。x =細菌。各ファセットは異なる数の連絡先です。 モデル NumberContactsにGamma(link = "log")と多項式を使用してアメーバの提案に基づいてlme4 :: glmerから試してみます。 cfug<-glmer(CFU ~ Gloves + poly(NumberContacts,2) + (-1+NumberContacts|Participant), data=(K,CFU<4E5), family=Gamma(link="log") ) plot(cfug) NB。GIRA(link = "inverse")は、PIRLSのステップを半分にしても逸脱を減らすことができなかったとは言いません。 結果: cfugの近似vs残差 qqp(resid(cfug)) 質問: 私のglmerモデルは、各参加者のランダムな効果と、誰もが実験Aに続いて実験Bを行うという事実を組み込むように適切に定義されていますか? 添加: 参加者間には自己相関があるようです。これはおそらく、それらが同じ日にテストされなかったためであり、細菌のフラスコは時間とともに成長し、減少します。それは重要ですか? acf(CFU、lag = 35)は、ある参加者と次の参加者の間の有意な相関を示しています。

2
母集団間の違いを調査する
2つの母集団からのサンプルがあるAとしBます:と。これらの母集団は個人で構成されていると仮定し、個人を特徴の観点から説明することにします。これらの機能の一部はカテゴリ型であり(たとえば、機能するように駆動しますか?)、一部は機能的です(高さなど)。これらの機能をと呼びましょう。何百ものこれらの機能(例、n = 200)を収集します。簡単にするために、すべての個人にわたってエラーやノイズがないと仮定しましょう。X1…XnX1…XnX_1 \ldots X_n 2つの母集団は異なると仮定します。私たちの目標は、次の2つの質問に答えることです。 それらは実際に大きく異なりますか? それらの間の大幅な違いは何ですか? デシジョンツリー(ランダムフォレストなど)や線形回帰分析などの方法が役立ちます。たとえば、ランダムフォレストの特徴の重要性や線形回帰の近似係数を調べて、これらのグループを区別するものを理解し、特徴と母集団の関係を調査できます。 このルートに進む前に、ここで自分の選択肢を理解したいと思います。これは、良い方法と最新の方法と悪い方法の違いです。私の目標はそれ自体が予測ではなく、グループ間の有意差をテストして見つけることです。 この問題に対処するためのいくつかの原則的なアプローチは何ですか? ここに私が持っているいくつかの懸念があります: 線形回帰分析のような方法は、(2)に完全に答えない場合がありますよね?たとえば、1回の近似はいくつかの違いを見つけるのに役立ちますが、すべての重要な違いを見つけることはできません。たとえば、多重共線性により、すべての特徴がグループ間でどのように変化するかを見つけることができなくなる可能性があります(少なくとも1回の近似で)。同じ理由で、ANOVAは(2)についても完全な回答を提供できないと思います。 予測アプローチがどのように答えるかは完全には明らかではありません(1)。たとえば、どの分類/予測損失関数を最小化する必要がありますか?そして、フィットした後、グループが大幅に異なるかどうかをどのようにテストしますか?最後に、(1)で得られる答えが、使用する特定の分類モデルセットに依存する可能性があることを心配しています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.