60人にアトランタのレストランフランチャイズをできるだけ多く記載してもらいました。全体のリストには70を超えるレストランが含まれていましたが、10%未満の人から言及されたレストランは除外され、45となりました。これらの45について、フランチャイズをリストした情報提供者の割合を計算しました。この比率をフランチャイズの(対数変換された)広告予算とフランチャイズになってからの年数の関数としてモデル化する。
だから私はこのコードを書きました:
model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45)
予測されたように、両方の変数は強力で重要な効果を示します。
しかし、比例データをOLS回帰でモデル化してはならないことはわかっていますが、その後、次のコードを記述しました。
model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45)
この場合、「予算」は依然として重要な予測因子ですが、「年」は比較的弱く、重要ではありません。
見積もりによって、集計によって人為的に信頼が高まるのではないかと心配になります。2項式のglmは、モデルが45 * 55 = 2,475行に基づくように、基本的にデータをベクトル化しませんか?実際にレストランが45店、情報提供者が55店しかないことを考えると、それは適切でしょうか。これは混合効果モデリングを必要とするでしょうか?
lm
とglm(...,family=binomial)
、しかし重要なものの一つは、二項GLMが分散について強い仮定を行うことです。データが過度に分散されていない場合、集約/分解しても違いはありません。
family=quasibinomial