これらのデータを2項式glmの比率に集約できますか?


11

60人にアトランタのレストランフランチャイズをできるだけ多く記載してもらいました。全体のリストには70を超えるレストランが含まれていましたが、10%未満の人から言及されたレストランは除外され、45となりました。これらの45について、フランチャイズをリストした情報提供者の割合を計算しました。この比率をフランチャイズの(対数変換された)広告予算とフランチャイズになってからの年数の関数としてモデル化する。

だから私はこのコードを書きました:

model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45)

予測されたように、両方の変数は強力で重要な効果を示します。

しかし、比例データをOL​​S回帰でモデル化してはならないことはわかっていますが、その後、次のコードを記述しました。

model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45)

この場合、「予算」は依然として重要な予測因子ですが、「年」は比較的弱く、重要ではありません。

見積もりによって、集計によって人為的に信頼が高まるのではないかと心配になります。2項式のglmは、モデルが45 * 55 = 2,475行に基づくように、基本的にデータをベクトル化しませんか?実際にレストランが45店、情報提供者が55店しかないことを考えると、それは適切でしょうか。これは混合効果モデリングを必要とするでしょうか?


4
ヒント:何が起こるかを確認してくださいfamily=quasibinomial
ベンボルカー2012

1
面白い。推定係数は同じですが、標準誤差はより保守的です(そして、準二項モデルでは年は重要ではありません)。準二項式のヘルプファイルを検索していますが、何が起こっているのか説明できますか?私の印象は、準二項式が主に過剰分散に使用されていることです。。。
ジェレミー_

3
丁度。そこの違いをさまざまながありますlmglm(...,family=binomial)、しかし重要なものの一つは、二項GLMが分散について強い仮定を行うことです。データが過度に分散されていない場合、集約/分解しても違いはありません。
ベンボルカー、2012

1
Rの出力は、分散パラメーターが8.7であることを示しています。私はこれが過剰分散について何を言っているのかを理解しようとしています。その間、ベン、私はあなたが混合モデルでかなり多くの背景を持っていることを知っています。情報提供者とフランチャイズのどちらにも混合効果のない二項式glmを使用しても安全ですか(この場合、おそらく「情報提供者ID」の列を追加するときにすべてのデータをベクトル化する必要があります)。
ジェレミー_

回答:


1

比例データの場合、対数は乗算を加算に変換するため、フィッティングの前に従属変数の対数をとることができます。同様に、独立変数の対数も取る場合、それらも比例している場合、結果として生じる複数の線形回帰の近似は、加法モデルではなく、べき関数の積モデルを意味します。つまり、。つまり、適合します。比例変数の場合、これは通常、線形近似よりも重要度が高く、より強力で、が高くなります。Y=cX1k1X2k2...Xnknln(Y)=ln(c)+k1ln(X1)+k2ln(X2)...+knln(Xn)R2

ここで、変更されていない回帰直線(理想的にはデミング回帰などの2変量回帰)が{0,0}を通り抜けない場合、少し複雑になり、通常の最小値を使用するのではなく、オフセット比例損失関数を最小化します正方形。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.