ロジスティック回帰モデルをあてはめながら、共変量としてカウントデータを使用したいと思います。私の質問は:
- カウント、非負の整数変数を独立変数として採用することにより、ロジスティック(および、より一般的には、一般化された線形)モデルの仮定に違反しますか?
文献では、結果としてホットカウントデータを使用することに関する多くの参考文献を見つけましたが、共変量としてではありません。たとえば、非常に明確な論文を参照してください:「NE Breslow(1996)Generalized Linear Models:Checking Assumptions and Strengthening Conslusions、Congresso Nazionale Societa Italiana di Biometria、Cortona June 1995」、http://biostat.georgiahealth.edu/~dryuで入手可能 /course/stat9110spring12/land16_ref.pdf。
大まかに言うと、glmの仮定は次のように表現されるようです。
- iid残差;
- リンク関数は、従属変数と独立変数の間の関係を正しく表す必要があります。
- 外れ値の欠如
カウント共変量を扱うために他のタイプのモデルを使用することを示唆する他の仮定/技術的な問題が存在するかどうか誰もが知っていますか?
最後に、私のデータには比較的少ないサンプル(<100)が含まれており、カウント変数の範囲は3から4桁以内で変化することに注意してください(つまり、一部の変数の値は0から10の範囲ですが、他の変数の値は0-10000)。
簡単なRのサンプルコードを次に示します。
\###########################################################
\#generating simulated data
var1 <- sample(0:10, 100, replace = TRUE);
var2 <- sample(0:1000, 100, replace = TRUE);
var3 <- sample(0:100000, 100, replace = TRUE);
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);
\#fitting the model
model <- glm(outcome ~ ., family=binomial, data = dataset)
\#inspecting the model
print(model)
\###########################################################