タグ付けされた質問 「anova」

ANOVAは、複数のグループ平均を比較するための統計モデルおよび一連の手順であるVArianceのANalysisの略です。ANOVAモデルの独立変数はカテゴリカルですが、ANOVAテーブルを使用して連続変数をテストすることもできます。

2
ANOVAの正規性の仮定からの逸脱:尖度または歪度はより重要ですか?
Kutnerらによる線形統計モデルの適用。ANOVAモデルの正規性の仮定から、次に関する逸脱を述べている:誤差分布の尖度は、(どちらか多かれ少なかれ、正規分布よりもピークに達した)推論への影響の点では分布の歪度よりも重要です。 私はこの声明に少し戸惑っていて、本やオンラインで関連情報を見つけることができませんでした。裾が重いQQプロットは線形回帰モデルにとって正規性の仮定が「十分」であることを示すのに対し、歪んだQQプロットはより重要である(つまり、変換が適切である)こともわかったため、混乱しています。 同じ推論がANOVAにも当てはまり、それらの単語の選択(推論への影響の観点からより重要)が不適切に選択されただけであることは正しいですか?つまり、歪んだ分布はより深刻な結果をもたらすため、避ける必要がありますが、少量の尖度は許容できる場合があります。 編集:rolando2によって扱われるように、すべての場合において一方が他方よりも重要であると述べることは困難ですが、私は単に一般的な洞察を探しています。私の主な問題は、単純な線形回帰では、F検定がこれに対して非常にロバストであるため、より重いテール(尖度?)を持つQQプロットはOKであることを教えられたことです。一方、歪んだQQプロット(放物線形状)は通常、大きな懸念事項です。これは、ANOVAモデルを回帰モデルに変換でき、同じ仮定を持つ必要があるにもかかわらず、私の教科書がANOVAに提供するガイドラインに直接反するようです。 私は何かを見落としているか、または誤った仮定を持っていると確信していますが、それが何であるかを理解することはできません。

5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

3
一元配置分散分析の不等分散の代替
等しいサイズの3つのグループで平均を比較したいと思います(等しいサンプルサイズは小さい、21)。各グループの平均は通常分布していますが、それらの分散は等しくありません(Leveneを介してテストされます)。この状況では、変換が最適なルートですか?最初に何か他のものを考慮する必要がありますか?


2
線形回帰におけるt検定とANOVAの違い
線形回帰のt検定とANOVAの違いは何ですか? 傾斜と切片のいずれか1つが平均ゼロであるかどうかをテストするt検定ですが、ANOVAはすべての傾斜が平均ゼロであるかどうかをテストしますか?これが唯一の違いですか? 予測変数が1つしかない単純な線形回帰では、推定する勾配は1つだけです。t検定とANOVAは同等です。もしそうなら、異なる統計を使用している場合(t検定はt統計を使用し、ANOVAはF統計を使用している場合)

2
車を使用して繰り返し測定ANOVAの特定のコントラストを指定する方法は?
RでAnovaを繰り返し測定した後、そのデータセットでいくつかの特定のコントラストを実行しようとしています。正しいアプローチはAnova()、車のパッケージから使用することだと思い ます。 データの?Anova使用 から得られた例で私の質問を説明しましょうOBrienKaiser(注:例から性別因子を省略しました): 被験者因子、治療(3レベル:コントロール、A、B)、および2反復の間の1つのデザインがあります-測定(被験者内)要因、フェーズ(3レベル:事前テスト、事後テスト、フォローアップ)および時間(5レベル:1〜5)。 標準のANOVAテーブルは次のようになります(example(Anova)とは異なり、タイプ3の二乗和に切り替えました。これが私の分野の望みです)。 require(car) phase <- factor(rep(c("pretest", "posttest", "followup"), c(5, 5, 5)), levels=c("pretest", "posttest", "followup")) hour <- ordered(rep(1:5, 3)) idata <- data.frame(phase, hour) mod.ok <- lm(cbind(pre.1, pre.2, pre.3, pre.4, pre.5, post.1, post.2, post.3, post.4, post.5, fup.1, fup.2, fup.3, fup.4, fup.5) ~ treatment, data=OBrienKaiser) av.ok <- Anova(mod.ok, idata=idata, …

2
Split-Plot ANOVA:Rでのモデル比較テスト
RのXおよびM引数で使用するための適切なモデル比較を使用して、分割プロットANOVAで効果をテストするにはどうすればよいanova.mlm()ですか?私は?anova.mlmDalgaard(2007)[1]に精通しています。残念ながら、それは分割プロットデザインのみをブラシします。2つの被験者内要因を含む完全にランダム化されたデザインでこれを行います。 N <- 20 # 20 subjects total P <- 3 # levels within-factor 1 Q <- 3 # levels within-factor 2 DV <- matrix(rnorm(N* P*Q), ncol=P*Q) # random data in wide format id <- expand.grid(IVw1=gl(P, 1), IVw2=gl(Q, 1)) # intra-subjects layout of data matrix library(car) # for Anova() fitA …

2
なぜこれらの回帰anovaテーブルは同一なのですか?
同じYと3レベルのXの2つの回帰があります。全体としてn = 15、各グループまたはXのレベルでn = 5です。最初の回帰では、Xをカテゴリーとして扱い、インジケーター変数をレベル2およびレベル3に割り当てます1つは参照です。インジケーター/ダミーは次のようになります。レベル= 2の場合はX1 = 1、それ以外の場合は0、レベル= 3の場合はX2 = 1、それ以外の場合は0 結果として、私の適合モデルは次のようになります:y = b0 + b1(x1)+ b2(x2) 回帰を実行すると、出力に次の分散分析表が含まれます。 残りの出力はここでは関係ありません。 では、同じデータに対して別の回帰を実行します。カテゴリ分析を行わず、Xを連続として扱いますが、方程式に変数を追加します。Xの2乗、X ^ 2です。これで、次のモデルができました。y= b0 + b1(X)+ b2(X) ^ 2 実行すると、上記で示したのとまったく同じ分散分析表が出力されます。なぜこれら2つの回帰が同じ表を生じるのですか? [この小さな難問のクレジットは、カリフォルニア大学ロサンゼルス校の生物統計学部のトーマスベリンに寄付されます。]
11 regression  anova 

4
複数のグループの平均を比較するANOVAとネストされたモデルを比較するANOVAの関係は何ですか?
これまで、ANOVAが2つの方法で使用されるのを見てきました。 まず、私の紹介統計テキストでは、平均の1つに統計的有意差があるかどうかを判断するために、ペアワイズ比較に対する改善として、3つ以上のグループの平均を比較する方法としてANOVAが導入されました。 第二に、私の統計学習テキストでは、ANOVAが2つ(またはそれ以上)のネストされたモデルを比較して、モデル2の予測子のサブセットを使用するモデル1がデータに等しく適合するか、または完全なモデル2が優れています。 今、私は何らかの方法でこれら2つの事柄が両方ともANOVAテストを使用しているため、実際には非常によく似ていると思いますが、表面上はかなり異なっているように見えます。1つは、最初の使用で3つ以上のグループを比較し、2つ目の方法では2つのモデルのみを比較できることです。誰かがこれらの2つの使用法の関係を解明してくれませんか?

2
バートレット検定とリーベン検定
私は現在、分散分析の仮定に対する違反に対処しようとしています。私はShapiro-Wilkを使用して正規性をテストし、Leveneの検定とBartlettの分散の等価性の検定の両方を試してみました。それ以来、不平等な分散を試みて修正するためにデータをログ変換しました。対数変換されたデータに対してバートレットのテストを再実行しましたが、依然として有意なp値を受け取りました。好奇心から、レベンのテストも実行し、有意ではないp値を得ました。どのテストに頼ればよいですか?

2
MANOVAの帰無仮説とは何ですか?
バックグラウンド (カテゴリー変数によって与えられる)異なるグループ間のいくつかの連続変数の違いを分析するために、一元配置分散分析を実行できます。複数の説明的(カテゴリカル)変数がある場合、階乗ANOVAを実行できます。複数の連続変数(つまり、複数の応答変数)のグループ間の差異を分析する場合は、多変量分散分析(MANOVA)を実行する必要があります。 質問 いくつかの応答変数に対してANOVAのようなテストを実行する方法をほとんど理解していません。さらに重要なことに、帰無仮説が何であるかを理解していません。帰無仮説です: "各応答変数について、すべてのグループの平均は等しい"、 またはそれは "少なくとも1つの応答変数について、すべてのグループの平均は等しい"、 またはは何かありますか?H0H0H_0

2
カテゴリー変数間の共線性
連続予測子に関して共線性については多くありますが、カテゴリカル予測子についてはそれほど多くはありません。以下に示すこのタイプのデータがあります。 最初の要因は遺伝的変数(対立遺伝子数)、2番目の要因は疾患カテゴリーです。明らかに遺伝子は病気に先行し、診断につながる症状を示す際の要因です。ただし、タイプIIまたはIIIの二乗和を使用した定期的な分析は、SPSSを使用した心理学で一般的に行われるように、効果を逃します。タイプIの二乗和分析では、次数に依存するため、適切な次数を入力するとそれが検出されます。さらに、タイプIIまたはIIIで十分に特定されていない、遺伝子に関連しない疾患プロセスの余分なコンポーネントがある可能性があります。以下のanova(lm1)とlm2またはAnovaを参照してください。 データの例: set.seed(69) iv1 <- sample(c(0,1,2), 150, replace=T) iv2 <- round(iv1 + rnorm(150, 0, 1), 0) iv2 <- ifelse(iv2<0, 0, iv2) iv2 <- ifelse(iv2>2, 2, iv2) dv <- iv2 + rnorm(150, 0, 2) iv2 <- factor(iv2, labels=c("a", "b", "c")) df1 <- data.frame(dv, iv1, iv2) library(car) chisq.test(table(iv1, iv2)) # quick …

1
Rを使用して被験者間および被験者内のコントラストを持つ4 x 4混合ANOVAを実行する方法
Rの初心者ユーザーは、繰り返し測定ANOVAと格闘しています。 4レベルの被験者因子間の1つ(「グループ」と呼ばれる単一の変数でコード化)と4レベルの被験者因子内の1つ(4つの別々の変数「DV1」、「DV2」、「DV3でコード化」で構成されるデータセットがあります。 '、' DV4 ')。 私には次の目的があります。 全体的な反復測定ANOVAを実行します。 カスタムコントラストを使用してグループを比較します(SPSSのLMATRIXコマンドの場合と同様)。 カスタムコントラストを使用して、異なるレベルのDVを比較します(SPSSのMMATRIXコマンドなど)。 2)と3)を同時に組み合わせて、被験者内因子の特定のレベルで特定のグループのみを比較します。 合計がゼロにならないコントラストのセットを実行します。 SPSSでこれを問題なく行うことができることはわかっていますが、Rでこれを行う方法を明確に理解できません。このパッケージの一部がさまざまなパッケージでどのように機能するかを確認しましたが、まだそうしていませんこれがRの1つのプロシージャまたは一連の関連プロシージャ内でどのように機能するかは、これまでに確認されています

1
一連の広告のうち、クリック率が最も高いものを特定するために必要なサンプルサイズ
私は貿易のソフトウェアデザイナーであり、クライアントのプロジェクトに取り組んでいます。私の分析が統計的に正しいことを確認したいと思います。 次のことを考えてみましょう: 私たちは持っているのn広告(N <10)、そして私たちは、単に最高を実行する広告を知りたいです。 広告サーバーはこれらの広告の1つをランダムに配信します。ユーザーが広告をクリックすると成功します-私たちのサーバーはそれを追跡します。 前提:信頼区間:95% 質問:推定サンプルサイズはどのくらいですか?(配信する必要がある広告の合計数)、なぜですか?(私はダミーです) ありがとう

3
分散の均一性に関するLeveneまたはBartlettの検定によって生成されるp値の解釈
私は、実験の1つからのデータのグループに対してLeveneとBartlettのテストを実行して、分散の均一性のANOVAの仮定に違反していないことを検証しました。よろしければ私が間違った仮定をしていないことを皆さんに確認したいのですが。 これらのテストの両方で返されるp値は、データが等しい分散を使用して再度生成された場合、データが同じになる確率です。したがって、これらの検定を使用して、分散の均一性のANOVAの仮定に違反していないと言えるようにするには、選択したアルファレベル(たとえば0.05)よりも高いp値のみが必要ですか? たとえば、私が現在使用しているデータで、バートレットのテストはp = 0.57を返しますが、リーベンのテスト(よくブラウンフォーサイスリーベンタイプのテストと呼んでいます)はap = 0.95を返します。つまり、どのテストを使用しても、仮定を満たしているデータであると言えます。私は間違いをしていますか? ありがとう。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.