適合度と線形回帰またはポアソンを選択するモデル

私の研究では、3つの大きな医薬品とイノベーションのケーススタディである2つの主なジレンマに関するアドバイスが必要です。年間の特許数は従属変数です。

私の質問は

良いモデルの最も重要な基準は何ですか？重要なことは何ですか？ほとんどまたはすべての変数が重要になるのでしょうか？「F STATISTIC」の問題ですか？「調整済みRの2乗」の値ですか？
第二に、研究に最適なモデルをどのように決定できますか？カウント変数（多分ポアソンカウント）である特許のほかに、資産収益率、研究開発予算、繰り返されるパートナー（バイナリ変数ではない％）、企業規模（従業員）などの説明変数があります。線形回帰またはポアソンを実行する必要がありますか？

— ニッツァン
ソース

Kjetilは、詳細な答えを提供してくれました。彼の議論と一致するより迅速で簡潔な意見は、あなたが「第二」と名付けたものが本当に重要な質問であるということです。最初に言及するのは偶発的です。

— ニックコックス

最も重要なのは、モデルの背後にあるロジックです。変数「年間特許数」はカウント変数なので、ポアソン回帰が示されます。これは、（通常）対数リンク機能を備えたGLM（一般化線形モデル）ですが、通常の線形回帰は、アイデンティティリンクを備えたガウスGLMです。ここで、最も重要なのは、エラーの分布（ポアソンまたはガウス）よりも重要なログリンク関数です。

変数「特許」は広範な変数です：集中的で広範なプロパティを参照してください。以下のために集中的な温度のような変数、（アイデンティティリンク付き）線形モデルは、多くの場合適切です。しかし、広範な変数では異なります。製薬会社の1つが2つの異なる会社に分割されたと考えてください。その後、特許を2つの新しい会社に分割する必要がありました。回帰のの共変数で何が起こりますか？従業員数やRD予算などの変数も分割する必要があります。 $x$

概して、この文脈では、集中変数は企業規模に依存しない変数ですが、広範な変数は企業規模に（通常、直線的に）依存します。そのため、ある意味で、回帰式に多くの異なる変数がある場合、サイズ効果を繰り返し測定しています。それは冗長に思えるので、可能な場合は、従業員あたりのRD予算（または総予算の割合として）、同様に収入など、変数を集中的な形式で表現するようにしてください。従業員数などの変数は、広範囲。この大規模な/集中的な変数の問題に関する別の議論については、相関するリグレッサーへの対処に対する@onestopの回答を参照してください。

これを代数的に見てみましょう：は特許、予算（従業員あたり）、元の会社の従業員です。一方、およびはaの後の対応する変数ですスプリット。上記のように、が唯一の大規模な共変数であると仮定します（もちろん、も大規模です）。 $P, B, E$ $P_1, B_1, E_1$ $P_2, B_2, E_2$ $E$ $P$

ランダムな部分が出て左に続いて、分割前に、我々は、モデル、アイデンティティリンクを持っている：、分割画分とするので、会社の1のために我々が得る分割後

P = μ + β_{1} E + β_{2} B

$P= \mu+\beta_1 E + \beta_2 B$

α, 1 - α

$\alpha, 1-\alpha$

以来、

が、

。会社2も同様です。したがって、モデルは企業の規模に非常に複雑な方法で依存し、

回帰係数のみに依存し

\begin{aligned} α P & = α μ + α β_{1} E + α β_{2} B \\ P_{1} & = α μ + β_{1} E_{1} + α β_{2} B_{1} \end{aligned}

$\begin{align} \alpha P &= \alpha \mu +\alpha\beta_1 E +\alpha\beta_2 B \\[5pt] P_1 &= \alpha\mu + \beta_1 E_1 + \alpha\beta_2 B_1 \end{align}$

P_{1} = α P, E_{1} = α E

$P_1=\alpha P, E_1=\alpha E$

B_{1} = B

$B_1=B$

E

$E$ 企業の規模に依存せず、他のすべてのパラメーターに影響する規模。そのため、結果の解釈が難しくなります。特に、データにさまざまな規模の企業がある場合、それらの係数をどのように解釈するのでしょうか。他のデータなどに基づく他の研究との比較は、非常に複雑になります。

ここで、ログリンク機能を使用すると役立つかどうかを確認します。繰り返しますが、外乱項のない理想化されたモデルを作成します。変数は上記のとおりです。

まず、分割前のモデル：分割した後、会社の1のために、我々が得る：

P = \exp （ μ + β_{1} E + β_{2} B ）

$P = \exp\left(\mu+\beta_1 E + \beta_2 B\right)$

\begin{aligned} P_{1} & = \exp （ ログ α ） \exp （ μ + β_{1} E + β_{2} B ） \\ P_{1} & = \exp （ ログ α + μ + β_{1} E + β_{2} B_{1} ） \end{aligned}

$\begin{align} P_1 &= \exp(\log\alpha) \exp\left(\mu+\beta_1 E + \beta_2 B\right) \\[5pt] P_1 &= \exp\left(\log\alpha+\mu+\beta_1 E +\beta_2 B_1 \right) \end{align}$

E

$E$

P = \exp （ μ + β_{1} ログ E + β_{2} B ）

$P = \exp\left(\mu+\beta_1 \log E + \beta_2 B\right)$

\begin{aligned} P_{1} & = \exp （ ログ α ） \exp （ μ + β_{1} ログ E + β_{2} B ） \\ P_{1} & = \exp （ ログ α + μ + β_{1} ログ E + β_{2} B_{1} ） \\ P_{1} & = \exp （ （ 1 - β ） ログ α + μ + β_{1} ログ E_{1} + β_{2} B_{1} ） \\ P_{1} & = \exp （ μ^{'} + β_{1} ログ E_{1} + β_{2} B_{1} ） \end{aligned}

$\begin{align} P_1 &= \exp(\log\alpha) \exp\left(\hspace{9.5mm}\mu+\beta_1 \log E + \beta_2 B\right) \\[5pt] P_1 &= \exp\left(\log\alpha+\hspace{6mm}\hspace{9.5mm}\mu+\beta_1 \log E +\beta_2 B_1 \right) \\[5pt] P_1 &= \exp\left((1-\beta)\log\alpha+\mu+\beta_1 \log E_1 +\beta_2 B_1\right) \\[5pt] P_1 &= \exp\left(\hspace{31mm}\mu'+\beta_1 \log E_1 +\beta_2 B_1\right) \end{align}$

μ^{'}

$\mu'$

これにより、結果の解釈がはるかに簡単になり、他のデータを使用した研究との比較、時間の経過などが可能になります。IDリンクを使用してサイズに依存しない解釈を行うパラメーターでは、このフォームを実現できません。

結論：ログリンク関数、おそらくポアソン回帰、または負の二項関数を伴うGLMを使用する... リンク関数は桁違いに重要です！

要約すると、カウント変数のように広範囲にわたる応答変数の回帰モデルを構築する場合です。

集中変数で共変数を表現してみてください。
広範囲に残さなければならない共変数：それらをログに記録します（上記の代数は、多くても1つの広範な共変数があることに依存します）。
ログリンク機能を使用します。

次に、外乱項の分布など、適合に基づく基準などの他の基準を二次決定に使用できます。

— Kjetil B Halvorsen
ソース

ポアソン回帰は、ログリンク関数を使用したGLS回帰だと思いましたか？

— サイドショーボブ

通常、はい。ただし、アイデンティティ（または平方根などの他の）リンクを使用したポアソン回帰を検討することもできます。しかし、ここでの私の議論は、通常、ログリンクが必要であることを示しています。

— kjetil bハルヴォルセン

(1 - β)

$(1-\beta)$

μ

$\mu$