フラクショナル従属変数：ポアソン回帰を使用しないのはなぜですか？

多くの設定で、部分従属変数を使用してモデルを推定することに関心があります。たとえば、Papke＆Wooldridge（1996）http://faculty.smu.edu/millimet/classes/eco6375/papers/papke%20wooldridge%201996.pdfでは、401（k）プランの参加率を検討します。 $PRATE=\frac{accounts}{emplyees}$ 。次に、そのようなモデルを推定するGLMメソッドを作成します。カウントデータの文献を見ると、次のポアソン回帰を実行すべきではないのではないかと思います。 $accounts$ 同じリグレッサのセットで、オフセットとして $employees$ 。これは潜在的に絶対数に依存しますか $accounts$ ？

これは、推奨される複製とは異なります。カウントデータで使用するのに最も適切な回帰モデルはどれですか。私の質問は、オフセット/分母の正しい場所について説明しています。

count-data

— フェリックスH
ソース

...オフセットlog（employee）として;-)（log-linkを使用した場合）！imho ...同じ結果が得られますが、それを解釈するために（好ましくない）何を（どのスケールで）行いますか？-好みの問題...

— イヴァンクシュナセフ2016年

可能性のある重複どのような回帰モデルでは、カウントデータの使用に最も適しているのですか？

— kjetil b halvorsen 2017年

私はそうは思いません。非常に明確なオフセット/露出変数を持つカウントデータと、何かをレートまたはカウントとしてモデル化するタイミングについて質問しています。

— Felix H

オフセットとしてlog（employees）を使用する必要があります。アプリケーションの詳細を教えてください。オフセットなぜの方法/の非常に詳細な議論はしているstats.stackexchange.com/questions/142338/...あなたにも見て可能性があり、stats.stackexchange.com/questions/307369/... どちらがより良い提案1よりも複製されます（上記）

— kjetil b halvorsen 2017年

ここでポアソン回帰を使用しない理由の1つは、各従業員が最大1つのアカウントを持つことができるため、アカウントの数は従業員の数によって制限されることです。ポアソン分布では、従業員数を超えるアカウント数に対してゼロ以外の確率が許可されます。私の理解では、ポアソン回帰は多くの仮定違反に対してロバストですが、ポアソン回帰を使用すると、より適切なものと比較して少なくとも効率が低下することになります。

その場合、問題は次のとおりです。二項回帰はより適切ではないでしょうか。（同じ参加率を想定 $p$ 各従業員、計画の数 $y$ として配布する必要があります $Binomial(n,p)$ どこ $n$ は従業員数です。）IIRC、この場合に二項回帰を使用できない理由は、従業員数が不明であるためです。参加率それ自体のみが知られています。それは二項回帰を除外します-そしてそれが適切であったとしても、オフセットのあるポアソン回帰を除外します。

— 簡潔な
ソース

回答ありがとうございます！しかし、従業員の数がわかっていて、各従業員がアカウントを0または1つしか持てない場合はどうでしょうか。

— Felix H

それが二項回帰の場合です。

— Laconic

確かに、しかし何が望ましいのでしょうか？二項式か、オフセット付きでカウントしますか？

— Felix H

二項。オフセットは、分布を上記の境界に保つために何もしません。観測数は、原則として、ポアソン分布から取得することはできません。一方、各従業員がゼロまたは1つのアカウントを持つことができる場合、確率は

p

$p$ アカウントを持つことは、グループの各従業員に対して同じです

n

$n$ 従業員の場合、アカウントの総数は文字通りBinomial（n、p）として分布します。

— Laconic