ANOVAの変数の順序は重要ではありませんか?


20

多因子ANOVAで変数が指定される順序は違いを生じるが、多重線形回帰を行う場合、順序は重要ではないことを理解するのは正しいですか?

そのため、測定された失血 yや2つのカテゴリ変数などの結果を想定します

  1. アデノイド切除術の方法 a
  2. 扁桃摘出方法 b

モデルy~a+bはモデルとは異なりますy~b+a(または、Rでの私の実装は示すようです)。

ここでの用語は、ANOVAは階層モデルであるということを理解するのは正しいですか?最初の要因に残差の分散を割り当てる前に、最初の要因にできる限り多くの分散を割り当てるためですか?

上記の例では、扁桃摘出術を行う前にアデノイド切除術を最初に行うので、階層は理にかなっていますが、固有の順序のない2つの変数があるとどうなりますか?


12
設計が不均衡なANOVAでは、つまり、セルサイズが等しくない場合、順序が重要になります。このトピックは、「平方和の種類」という見出しの下でよく扱われます。参照epm.sagepub.com/content/38/3/621.full.pdf+htmlへとCHLの答えをstats.stackexchange.com/questions/11209/...
カラカル


私はそれが問題に別の光を当てることを期待して、私の古い議論を拡張しました。確かにまだ作業が必要であり、誰かがそれを編集するのを手伝う神経があるかもしれません。ここに私がこれまでに持っているものがあります:go.helms-net.de/stat/div/%28SSE%29%20ANovaRegression_SPSS_R.htmおそらく、ここでその質問に対するいくつかの明示的な答えに抽出される可能性がある興味深いものがあります。
ゴットフリードヘルムズ

回答:


17

この質問は明らかに、aov()関数でRで分析された、不均衡な2方向設計の研究から生じました。このページには、この問題のより最近の詳細な例が記載されています。

この質問に対する一般的な答えは、非常に多く、「依存する」です。ここでは、デザインのバランスが取れているかどうか、またバランスが取れていない場合は、ANOVAのどのフレーバーが選択されるかによって異なります。

まず、設計のバランスが取れているかどうかによります。可能性のあるすべての最良の世界では、階乗計画のすべてのセルに同じ数のケースがあるため、ANOVAの実行方法に関係なく、モデルに因子を入力する順序による違いはありません。 、遡及的な臨床コホートから明らかに、このようなバランスが見つからなかった現実の世界からのようです。したがって、順序重要になる場合があります。

次に、ANOVAの実行方法に依存しますが、これはやや議論の多い問題です。不均衡な設計のANOVAのタイプは、主な効果と相互作用を評価する順序が異なります。相互作用の評価は、双方向および高次のANOVAの基本であるため、続行するための最良の方法をめぐる論争があります。1つの説明と説明については、この相互検証ページを参照してください。別のビューについては、パッケージAnova()マニュアルcarの(大文字の「A」が付​​いた)機能の詳細と警告を参照してください。

因子の順序は、タイプIテストと呼ばれるものを使用するR のデフォルトの不均衡な設計で重要ですaov()。これらは、現在の質問が想定しているように、モデルへの入力順での要因に対する分散の連続的な属性です。R のパッケージ内の関数によって提供されるタイプIIまたはタイプIIIテストでは順序関係ありません。ただし、これらの選択肢には、上記のリンクで指摘されている潜在的な欠点があります。Anova()car

最後に、lm()相互作用項を含めると本質的に同じタイプのモデルであるRの場合と同様に、多重線形回帰との関係を検討します。の変数の入力順序は、によって報告されるlm()回帰係数とp値に関しては重要ではありません。summary(lm())ここで、kレベルのカテゴリ因子は(k-1)バイナリダミー変数としてコーディングされ、各ダミーについて回帰係数が報告されます。 。

ただし、従来のANOVAで予想されるように、lm()出力をanova()(R statsパッケージの小文字の「a」)でラップしたりAnova()、すべてのレベルに対する各因子の影響を要約したりすることは可能です。次に、因子の順序はに関して重要でありanova()、に関してaov()は重要ではありませんAnova()。同様に、どのタイプのANOVAを使用するかについての紛争が返されます。そのため、lm()モデルのすべてのダウンストリーム使用で因子入力の順序非依存性を仮定することは安全ではありません。


*すべてのセルに同じ数の観測値があれば十分ですが、私が理解しているように、因子の順序が無関係である必要はありません。要求の少ないタイプのバランスでは、順序に依存しない場合があります。


確かに、その観測データは不均衡であり、非常に不均衡でした。
ファレル

0

階層モデルという用語は、因子間の構造を指します。たとえば、多施設共同研究は階層的です。患者を治療する病院内に患者を入れ子にします。各病院はプラセボとベラムで患者を治療しますが、病院AまたはBのいずれかで患者を受け取るのは、病院が患者全員を統治する共通の効果のためにわずかに異なります(実験薬剤との相互作用効果でさえあるかもしれません)。したがって、階層効果と呼ばれます。

今、あなたの切除方法は階層的であるかもしれません:特定の扁桃摘出方法は、以前に使用されたアデノイド切除方法に応じてわずかに異なる(それ自体、まだ効果がありませんので、それはあなたが推定し、テストするものです)患者?はいの場合、モデルで指定する必要があります。

y〜a + bがy〜b + aと異なる可能性があるという観察は、何か問題があることを示しています。加算効果は通勤するので、違いはありません(小さな数値の違いは別として)。手術方法の効果が、統計学者が後に効果を特定する順序に依存する可能性があることは、もっともらしくも望ましくもない。したがってR、データをフィードするための間違ったアプローチを選択した可能性があります。


1
私は最後の段落に従うかどうかわかりません。不均衡な要因分散分析では、タイプI(連続)平方和を介して計算された各要因のp値は、要因の順序に確実に依存します。これが問題のポイントだと思います。
アメーバは、

@FarrelがType I SSを取得したかどうかはわかりません。データセットとモデルステートメントのいくつかの異なるソートのために、SASが異なるType III SSを出力するのを観察したことがあります。たぶん、これはRでも起こりますか?
ホルストグリュンブッシュ

2
私は事実を知ることができず、5年前にQが尋ねられたことを考えると、彼は自分自身を覚えていないかもしれません。しかし、これは特に「モデルy〜a + bはモデルy〜b + aと異なる(またはRでの私の実装が示すように見える)」という言葉の最もpar約的な解釈だと思います。aovRのそのコマンドは、デフォルトでType I SSを使用します。バウンティを提供したとき、アンバランスなanova設計の背後にある問題、タイプI / II / III SSの違い、および線形回帰に同じ問題があるかどうかについてのコメントを得るための答えが得られると期待していました。
アメーバは、

1
いいえ。SSI / II / IIIの間に差がない場合、バランスが取れていても、デザインマトリックスはanovaで特異です。SS I / II / IIIは、因子が非平衡になる場合(平衡の場合とは異なり)だけ異なるため、不平衡の場合のみ異なります。私の理解では、これは相関する予測因子による線形回帰に相当します。これは非常に一般的な状況です。私の答えは、回帰でも同じ問題が発生するということです。他のすべての予測子の効果を考慮した後、1つの予測子のp値を計算するのが標準であるということです。これはanovaのType III SSに対応します。
アメーバは、

1
昨日Stack Overflowから移行されたこのような、ANOVAの変数順序に関するこのような質問が寄せられています。この5年前の質問はに基づいているのaovではなく、同様に基づいていると想定しても安全だと思いlmます。@ amoebaが5月12日、14:31のコメントで示したタイプのこの質問に対する回答があると便利です。 。
EdM
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.