パーセンテージでANOVAを使用していますか?


13

独立変数(因子)として4つのグループ(4つのBMIグループ)を持つテーブルがあります。「妊娠中の母親の喫煙率」という従属変数があります。

このためにANOVAを使用することは許可されますか、またはカイ2乗または他のテストを使用する必要がありますか?

回答:


21

従属変数としてバイナリ変数を持つことと、従属変数として比率を持つことには違いがあります。

  • バイナリ従属変数

    • これはあなたが持っているもののように聞こえます。(つまり、各母親は喫煙しているか、喫煙していない)
    • この場合、ANOVAは使用しません。バイナリ変数を従属変数として概念化する場合は、カテゴリー予測変数の何らかの形式のコーディング(おそらくダミーコーディング)によるロジスティック回帰が明白な選択です(そうでなければ、カイ二乗を行うことができます)。
  • 従属変数としての割合

    • これはあなたが持っているもののようには聞こえません。(つまり、喫煙中の妊婦のサンプルで妊娠中に母親が喫煙していた総目覚め時間の割合に関するデータはありません)。
    • この場合、ANOVAおよび標準線形モデルアプローチは一般に、目的に合っている場合とそうでない場合があります。問題の説明については、@ Ben Bolkerの回答を参照してください。

バイナリ従属変数の場合、バイナリ比率(つまり、A、B、およびCグループの#、およびA、B、およびCグループの成功の数)の要約データのみがあり、実際の生データ、ロジスティック回帰を使用してどうすればよいですか?私は、生データでそれを使用することにのみ精通しています。
ブライアン

15

異なるグループ内の応答が0または100%にどれだけ近いかに依存します。極端な値が多数ある場合(つまり、0または100%に多くの値が積み上げられている場合)、これは困難です。(「分母」、つまりパーセンテージが計算される被験者の数がわからない場合、とにかく分割表アプローチを使用することはできません。)グループ内の値がより合理的である場合、変換できます応答変数(たとえば、古典的な逆正弦平方根またはおそらくロジット変換)。変換されたデータがANOVAの仮定を適切に満たしているかどうかを判断するためのさまざまなグラフィカル(推奨)および帰無仮説テスト(あまり推奨されません)のアプローチがあります(分散と正規性の均質性、前者は後者よりも重要です)。グラフィカルテスト:箱ひげ図(分散の均一性)とQQプロット(正規性)[後者はグループ内で、または残差に対して行われるべきです]。帰無仮説検定:例:バートレット検定またはフリグナー検定(分散の均一性)、シャピロウィルク、ジャークベラなど


11

応答変数が0/1(煙、煙ではない)になるように、生データが必要です。次に、バイナリロジスティック回帰を使用できます。BMIを間隔にグループ化するのは正しくありません。カットポイントは正しくなく、おそらく存在しないため、BMIが喫煙に関連しているかどうかを公式にテストしていません。現在、多くの情報が破棄されたBMIが喫煙に関連しているかどうかをテストしています。特に、外側のBMI間隔は非常に不均一であることがわかります。


2
@フランク-BMIをグループ化するのはなぜ「正しくない」のですか?結果が適切に解釈される限り、これは完全に合理的と思われます。たとえば、「低体重」「健康体重」「過体重」および「肥満」であることが喫煙に関連しているかどうかをテストできます。これらの用語はBMIの範囲によって定義されます。ここには「間違った」ものはありません。
確率論的

OPは共通の教育用データセットで動作しており、生のBMIがない可能性があると思います。一般的に、連続回帰変数を離散化することは理想的ではありませんが、「不正」ではありません。測定値にノイズがあり、他の手段がないと思われる場合は、これに頼ることも役立ちます。実際、テストしたい本当の仮説は、肥満が喫煙に関連しているかどうかです。BMIは肥満を測定するための1つの方法にすぎません(そして、私が理解していることから問題があります)。
JMS

4
測定にノイズが多い場合でも、変数を連続として分析する方が優れています。BMIを分類すると、分析のさまざまな選択で修正できるよりも多くの問題が発生します。実際、分類の際の推定値には科学的な解釈はありません。科学的量とは、現在の実験以外の意味を持つ量です。グループ推定(たとえば、Xの高い間隔と低い間隔のY = 1の対数オッズ)は、観測されたBMIのセット全体の関数であることがわかります。たとえば、サンプルに非常に高いまたは非常に低いBMIを追加すると、「効果」が強くなります。
フランクハレル

RおよびRStudioをインストールしている場合は、biostat.mc.vanderbilt.edu / BioModでインタラクティブなデモを見ることができます-緑の新しいマーキングを参照してください。スクリプトをRStudioにロードし、Hmiscパッケージもインストールする必要があります。
フランクハレル

「測定値がノイズの多い場合でも、連続として変数を分析する方が優れています」これは単なる誤りです(その一般性、つまり-通常は真実です)。たとえば、測定の誤差が大きさとともに増加する連続共変量があるとします。もちろん、最善のことは、エラーをモデル化するか、より良い測定値を取得することなどです。しかし、それが間違っていると言うことは、単に強すぎる声明です。
JMS

3

比例データに対して通常のANOVAを実行することを選択した場合、同種の誤差分散の仮定を検証することが重要です。(パーセンテージデータでよく見られるように)エラー分散が一定でない場合、より現実的な代替方法はベータ回帰を試すことです。これにより、モデルのこの不均一分散を説明できます。これは、パーセンテージまたは割合である応答変数を処理するさまざまな代替方法を議論する論文です:http : //www.ime.usp.br/~sferrari/beta.pdf

Rを使用する場合、パッケージbetaregが役立つ場合があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.