カウントデータを独立変数として使用すると、GLMの前提に違反しますか?


14

ロジスティック回帰モデルをあてはめながら、共変量としてカウントデータを使用したいと思います。私の質問は:

  • カウント、非負の整数変数を独立変数として採用することにより、ロジスティック(および、より一般的には、一般化された線形)モデルの仮定に違反しますか?

文献では、結果としてホットカウントデータを使用することに関する多くの参考文献を見つけましたが、共変量としてではありません。たとえば、非常に明確な論文を参照してください:「NE Breslow(1996)Generalized Linear Models:Checking Assumptions and Strengthening Conslusions、Congresso Nazionale Societa Italiana di Biometria、Cortona June 1995」、http://biostat.georgiahealth.edu/~dryuで入手可能 /course/stat9110spring12/land16_ref.pdf

大まかに言うと、glmの仮定は次のように表現されるようです。

  • iid残差;
  • リンク関数は、従属変数と独立変数の間の関係を正しく表す必要があります。
  • 外れ値の欠如

カウント共変量を扱うために他のタイプのモデルを使用することを示唆する他の仮定/技術的な問題が存在するかどうか誰もが知っていますか?

最後に、私のデータには比較的少ないサンプル(<100)が含まれており、カウント変数の範囲は3から4桁以内で変化することに注意してください(つまり、一部の変数の値は0から10の範囲ですが、他の変数の値は0-10000)。

簡単なRのサンプルコードを次に示します。

\###########################################################

\#generating simulated data

var1 <- sample(0:10, 100, replace = TRUE);    
var2 <- sample(0:1000, 100, replace = TRUE);    
var3 <- sample(0:100000, 100, replace = TRUE);    
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);

\#fitting the model

model <- glm(outcome ~ ., family=binomial, data = dataset)

\#inspecting the model

print(model)

\###########################################################

サイトへようこそ!1つのコメント:投稿に署名する場合は、プロファイル(特にaboutボックス)を使用します。

11
通常は、GLMモデルで、(「独立」)の予測は、変数はちょうどいくつかの既知の定数ことになっている、あるNOそれらについての分布の仮定は!したがって、予測データとしてカウントデータを使用しても問題はありません。
kjetil bハルヴォルセン

1
kjetilそれは正しいです-そして質問への良い答えです。しかし、ここで説明した極端なIVの範囲では、データの影響を評価し、適合度をチェックし、特に非線形関係の可能性を評価するのが賢明でしょう。これは、関係が実際非線形であり、ルートまたはログなどのIVの再表現によって線形化され、それによって影響の問題のいくつかが同時に軽減されることを期待して行われます。これはおそらく、@ user14583が回答で示しようとしていることです。
whuber

@kjetilbhalvorsen-「分布の仮定なし」には同意しますが、どちらの言葉も当てはまらないため、「既知」または「定数」と言うつもりはないと思います。
rolando2

4
それらはランダムではないという意味で「定数」であり、分布はありません。エラーなしで測定されると想定されるという意味で「既知」であるため、測定値はデータ生成メカニズムで実際に機能していた値です。GLMモデルは、すべてのランダム性が応答メカニズムにあると想定しています。
kjetil bハルヴォルセン

回答:


5

ここにはいくつかの微妙なニュアンスがあり、それらは混乱を引き起こしている可能性があります。

ロジスティック回帰の仮定には「iid残差...」が含まれると理解していると述べています。これはまったく正しくないと私は主張します。一般に、一般線形モデル(つまり、回帰)について言いますが、その場合、残差は互いに独立しており、同じ分布(通常は正規)が同じ平均(0)と分散(すなわち、一定の分散:分散の均一性/等分散性)。ただし、ベルヌーイ分布二項分布については、分散は平均の関数です。したがって、共変量が応答と完全に無関係でない限り、分散を一定にすることはできません。それは、ロジスティック回帰を無価値にするほど制限的な仮定でしょう。あなたが引用するpdfの要約では、「観測の統計的独立性」から始まる仮定をリストしていることに注意してくださいi-but-not-id

次に、上記のコメントで @kjetilbhalvorsenが指摘しているように、共変量の値(つまり、独立変数)は一般化線形モデルで固定されていると想定されます。つまり、特定の分布の仮定は行われません。したがって、それらがカウントであるかどうか、また、0から10、1から10000、または-3.1415927から-2.718281828の範囲であるかどうかは関係ありません。

ただし、@ whuberが注意しているように、共変量ディメンションの1つに非常に極端な少数のデータがある場合、それらのポイントが分析結果に大きな影響を与える可能性があります。つまり、特定の結果が得られるのは、それらのポイントのみです。これについて考える1つの方法は、これらのデータを含める場合と含めない場合の両方でモデルを適合させることにより、一種の感度分析を行うことです。これらの観測値を削除するか、何らかの堅牢な統計分析を使用するか、それらの共変量を変換して、それらのポイントが持つ極端なレバレッジを最小限に抑えることがより安全または適切であると考えるかもしれません。 私はこれらの考慮事項を「仮定」として特徴付けませんが、適切なモデルを開発する上で確かに重要な考慮事項です。


1

私が間違いなくチェックすることの1つは、独立変数の分布特性です。カウントデータでは非常に頻繁に、中程度から重度の右スキューが見られます。その場合、対数線形の関係が失われるため、データを変換する必要があります。ただし、ロジスティック(または他のGLM)モデルを使用しても問題ありません。


3
右スキューはどのように「対数線形関係」を失いますか?
Glen_b -Remonstate Monica

3
このコメントは私には間違っているようです。@Glen_bのように、これが対数線形関係をどのように失うかはわかりません。いずれにせよ、関係を直接調べた方がよいでしょう(たとえば、プロットを通して)。
ピーターフロム-モニカの復職

2
IVの非線形変換は、対数線形関係を他の何か@Peterに間違いなく変更します。この答えは基本的に正しいようです。
whuber

1
@whuberある変数を非線形変換すると、その変数と別の変数との関係が変わることに同意します。それはかなり明らかです。しかし、どのような関係からどのような関係まで?関係がどのように変更されるかを仮定するのではなく、直接関係を調べてみませんか?また、答えは、人対数線形関係を失いたいと言っているようです。
ピーターフロム-モニカの復職

2
@Peterの良い点です。しかし、一部の人々関係を変えたいと思っています。それは必ずしも間違った考えではありません。直接的な検査が正しい手順であることに同意します。線形の関係を作成するために、IVを再表現する方法を提案します。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.