最も重要なのは、モデルの背後にあるロジックです。変数「年間特許数」はカウント変数なので、ポアソン回帰が示されます。これは、(通常)対数リンク機能を備えたGLM(一般化線形モデル)ですが、通常の線形回帰は、アイデンティティリンクを備えたガウスGLMです。ここで、最も重要なのは、エラーの分布(ポアソンまたはガウス)よりも重要なログリンク関数です。
変数「特許」は広範な変数です:集中的で広範なプロパティを参照してください。以下のために集中的な温度のような変数、(アイデンティティリンク付き)線形モデルは、多くの場合適切です。しかし、広範な変数では異なります。製薬会社の1つが2つの異なる会社に分割されたと考えてください。その後、特許を2つの新しい会社に分割する必要がありました。回帰のの共変数で何が起こりますか?従業員数やRD予算などの変数も分割する必要があります。バツ
概して、この文脈では、集中変数は企業規模に依存しない変数ですが、広範な変数は企業規模に(通常、直線的に)依存します。そのため、ある意味で、回帰式に多くの異なる変数がある場合、サイズ効果を繰り返し測定しています。それは冗長に思えるので、可能な場合は、従業員あたりのRD予算(または総予算の割合として)、同様に収入など、変数を集中的な形式で表現するようにしてください。従業員数などの変数は、広範囲。 この大規模な/集中的な変数の問題に関する別の議論については、相関するリグレッサーへの対処に対する@onestopの回答を参照してください。
これを代数的に見てみましょう:
は特許、予算(従業員あたり)、元の会社の従業員です。一方、
P 1、B 1、E 1およびP 2、B 2、E 2はaの後の対応する変数ですスプリット。上記のように、Eが唯一の大規模な共変数であると仮定します(もちろん、Pも大規模です)。P、B 、EP1、B1、E1P2、B2、E2EP
ランダムな部分が出て左に続いて、分割前に、我々は、モデル、アイデンティティリンクを持っている:
、分割画分とするα 、1 - αので、会社の1のために我々が得る分割後
α P
P= μ + β1E+ β2B
α 、1 - α
以来、
P1=αP、E1=αEが、
B1=B。会社2も同様です。したがって、モデルは企業の規模に非常に複雑な方法で依存し、
Eの回帰係数のみに依存し
ます。α PP1= α μ + α β1E+ α β2B= α μ + β1E1+ α β2B1
P1= α P、E1= αのEB1= BE企業の規模に依存せず、他のすべてのパラメーターに影響する規模。そのため、結果の解釈が難しくなります。特に、データにさまざまな規模の企業がある場合、それらの係数をどのように解釈するのでしょうか。他のデータなどに基づく他の研究との比較は、非常に複雑になります。
ここで、ログリンク機能を使用すると役立つかどうかを確認します。繰り返しますが、外乱項のない理想化されたモデルを作成します。変数は上記のとおりです。
まず、分割前のモデル:
分割した後、会社の1のために、我々が得る:
P 1
P= exp(μ + β1E+ β2B )
P1P1= exp(ログα )exp(μ + β1E+ β2B )= exp(ログα + μ + β1E+ β2B1)
E
P= exp(μ + β1ログE+ β2B )
P1P1P1P1= exp(ログα )exp(μ + β1ログE+ β2B )= exp(ログα +μ + β1ログE+ β2B1)= exp((1 - β)ログα + μ + β1ログE1+ β2B1)= exp(μ′+ β1ログE1+ β2B1)
μ′
これにより、結果の解釈がはるかに簡単になり、他のデータを使用した研究との比較、時間の経過などが可能になります。IDリンクを使用してサイズに依存しない解釈を行うパラメーターでは、このフォームを実現できません。
結論:ログリンク関数、おそらくポアソン回帰、または負の二項関数を伴うGLMを使用する... リンク関数は桁違いに重要です!
要約すると、カウント変数のように広範囲にわたる応答変数の回帰モデルを構築する場合です。
集中変数で共変数を表現してみてください。
広範囲に残さなければならない共変数:それらをログに記録します(上記の代数は、多くても1つの広範な共変数があることに依存します)。
ログリンク機能を使用します。
次に、外乱項の分布など、適合に基づく基準などの他の基準を二次決定に使用できます。