ポアソンモデルでは、時間を共変量またはオフセットとして使用することの違いは何ですか？

最近、時間のログをポアソン回帰のオフセットとして使用して、時間の経過に伴う露出をモデル化する方法を発見しました。

オフセットは、係数1と共変量として時間を持つことに対応することを理解しました。

時間をオフセットとして使用するか、通常の共変量として使用するか（そのため係数を推定する）の違いをよりよく理解したいと思います。どの状況で、どちらの方法を使用する必要がありますか？

アップグレード：面白いかどうかわかりませんが、ランダムに分割されたデータを500回繰り返して使用して2つの方法の検証を実行し、オフセット方法を使用するとテストエラーが大きくなることに気付きました。

poisson-regression predictor offset

— バカブルク
ソース

回答:

オフセットは、どの回帰モデルでも使用できますが、応答変数のカウントデータを操作する場合は、より一般的です。オフセットは、モデル内の係数がになるように強制される単なる変数です。（この優れたCVスレッドも参照してください：ポアソン回帰でオフセットを使用するタイミング？） $1$

カウントデータを正しく使用する場合、これはあなたがモデル化できるようになる率の代わりに、カウントを。それが興味深いのであれば、それはやるべきことです。したがって、これはオフセットが最も頻繁に使用されるコンテキストです。ログリンク（標準リンク）を持つポアソンGLiMを考えてみましょう。

\begin{aligned} \ln (λ) & = β_{0} + β_{1} X & (c o u n t s) \\ \ln (\frac{λ}{t i m e}) & = β_{0} + β_{1} X & (r a t e s) \\ \Rightarrow \\ \ln (λ) - \ln (t i m e) & = β_{0} + β_{1} X \\ \ln (λ) & = β_{0} + β_{1} X + 1 \times \ln (t i m e) & (s t i l l r a t e s) \\ \neq \\ \ln (λ) & = β_{0} + β_{1} X + β_{2} \times \ln （ t 私 m e ） w h e n β_{2} \neq 1 & （ c o あなたは n t s a g a 私 n ） \end{aligned}

$\begin{align} \ln(\lambda) &= \beta_0 + \beta_1X & ({\rm counts})& \\ \ln\bigg(\frac{\lambda}{{\rm time}}\bigg) &= \beta_0 + \beta_1X & ({\rm rates})& \\ &\Rightarrow \\ \ln(\lambda) - \ln({\rm time}) &= \beta_0 + \beta_1X \\ \ln(\lambda) &= \beta_0 + \beta_1X + 1\times \ln({\rm time}) & ({\rm still\ rates})& \\ &\ne \\ \ln(\lambda) &= \beta_0 + \beta_1X + \beta_2\times \ln({\rm time})\quad {\rm when}\ \beta_2 \ne 1 & ({\rm counts\ again})& \end{align}$

（ご覧のとおり、オフセットを正しく使用するための鍵は、ではなくオフセットにすることです。 $\ln({\rm time})$ $\rm time$

の係数がでない場合、レートをモデリングしていません。ただし、はデータを適合させる柔軟性がはるかに高いため、オフセットとしてを使用しないモデルは通常よりよくフィットします（ただし、オーバーフィットすることもあります）。 $\ln({\rm time})$ $1$ $\beta_2 \in (-\infty, 1)\cup (1, \infty)$ $\ln({\rm time})$

カウントまたはレートをモデル化する必要があるかどうかは、実質的な質問によって異なります。知りたいものに対応するモデルを作成する必要があります。

がでないことの意味については、時間が問題の変数ではない例を考えてください。さまざまな病院で外科的合併症の数を調査することを想像してください。ある病院ではさらに多くの外科的合併症が報告されていますが、より多くの手術を行うため、比較は公平ではないと主張するかもしれません。そこで、あなたはこれを制御しようとすることにします。オフセットとして手術回数のログを使用するだけで、手術ごとの合併症の割合を調べることができます。手術回数のログを別の共変量として使用することもできます。係数がとは大きく異なるとしましょう。場合 $\beta_2$ $1$ $1$ $\beta_2 > 1$ 、その後、より多くの手術を行う病院は合併症の発生率が高くなります（おそらく、彼らは仕事を急いでより多くの仕事をしているためです）。場合、最も多くの病院が手術ごとの合併症が少なくなります（おそらく、最高の医師がいるので、より多くのことを行い、より良い治療を行います）。 $\beta_2 < 1$

問題の変数が時間である場合にこれがどのように発生するかを確認することは、もう少し複雑です。ポアソン分布から生じるポアソン過程イベント間の時間が指数関数的に分布している、したがって生存分析に天然接続があります。生存分析では、イベントまでの時間は指数関数として分布しないことがよくありますが、ベースラインのハザードは時間とともに大きくなったり小さくなったりする可能性があります。したがって、自然な開始点に続いて発生するイベントの数をモデル化している場合を考えてください。場合、イベントの速度が速くなっていることを意味し、場合、イベントの速度は遅くなっています。 $\beta_2 > 1$ $\beta_2 < 1$

前者の具体例として、最初の腫瘍が外科的に切除された後の一定期間に癌細胞の数を数えるスキャンを想像してください。一部の患者では、手術からさらに時間が経過しており、それを考慮したいと考えています。がんが足場を取り戻すと指数関数的に成長し始めるので、追加治療なしで手術を行ってからその割合は時間とともに増加します。

後者の具体的な例として、治療を受けていない病気の流行で死亡した人の数を考えてみましょう。最初は、多くの人がその病気にかかりやすいか、すでに免疫系が損なわれているなどの理由で死亡します。時間が経つにつれて、残っている人の人口が病気にかかりにくいため、その割合は減少します。（この例はとても病的です。）

— gung-モニカの復職
ソース

包括的な回答をありがとう、Gungに感謝します！よく理解できたら教えてください。オフセットとして時間を使用する場合、時間と、指数係数。その代わりに、共変量としてログ時間を使用する場合、イベントに対する時間の指数効果を推定します。これは、正または負の。（続き...）

y = t i m e * \exp (\sum_{1}^{p} β_{p} X_{p} + c o n s t)

$y = {\rm time}*\exp(\sum_{1}^{p}\beta_pX_p + {\rm const})$

y = {t i m e}^{β_{t i m e}} * \exp (\sum_{1}^{p} β_{p} X_{p} + c o n s t)

$y = {\rm time}^{\beta_{{\rm time}}}*\exp(\sum_{1}^{p}\beta_pX_p + {\rm const})$

— バカバーグ

したがって、なぜ時間とイベントの関係が線形で成長していると仮定する必要がありますか？どんな場合でも、そのような関係の形を推定する方が良いのではないでしょうか？さらに2つの質問があります。1.代わりに、共変量として変換された時間をログに記録しないのはどういう意味ですか？2.（質問を編集するか、これについて新しい質問をする必要があるかもしれません）ポアソンモデルは実際には整数yでも使用できないことを読みました。したがって、R：glm（I（y / time）〜cov.1 + ... + cov.n、poisson）で記述でき、offset（log（time））を使用した場合と同じ結果が得られます。私はこれを試しましたが、異なる係数を取得します。

— バカバーグ

ポアソンdistは整数専用です。LHSに分数を入力しないでください。ログ変換を使用しないということは、指数関数的な単位時間あたりのイベントの割合をモデル化することを意味します。

— GUNG -復活モニカ

@Bakaburg、時間はおそらくそれらと相関しています。それは他の回帰モデリングの状況と何の違いもありません。ここには問題はありません。平均レートのモデリングに興味があるか、そうでないかのどちらかです。

— GUNG -復活モニカ

@tatami、時間を（オフセットではなく）共変量として使用する場合、時間のログを取る必要はありません。ただし、結果をオフセットと比較する場合は、ログを使用して比較可能にする必要があります。

— gung-モニカの復職

通常、時間オフセットは、単位時間あたりのイベントの発生率を推定するモデルとして表示できます。オフセットは、さまざまな対象を観察する時間を制御します。

ポアソンモデルでは、何かが起こる率を常に推定していますが、この率を直接観察することはできません。あなたはないイベントがある程度の時間にわたり発生した回数を観察するために取得します。オフセットにより、2つの概念がつながります。

たとえば、被験者がさまざまな時間バスケットを撃っているのを観察し、各被験者の成功したバスケットの数を数えました。各被験者がバスケットを沈める頻度、すなわち各被験者が毎分沈めると期待する成功したバスケットの数に本当に興味があるのは、それが彼らのスキルのやや客観的な尺度であるためです。あなたが実際に沈んだのを観察したバスケットの数は、この推定率に、あなたが試みている対象を観察した時間を掛けたものになります。そのため、応答の単位、つまり1分あたりのバスケットの数の観点から考えることができます。

ポアソン回帰で共変量として観測される時間を使用する状況を考えるのは困難です。その性質上、レートを推定しているからです。

たとえば、バスケット数に対するアメリカ対ヨーロッパの効果（非常に愚かな例）を評価したい場合、共変量として時間を追加すると、ショットの経過から「独立して」その効果を評価できますが、それ？さらに、結果に対する時間の影響の推定値も提供します。

以下に、この危険性を強調した例を示します。実際、アメリカ人とヨーロッパ人は毎分同じ数のバスケットを沈めると仮定します。しかし、私たちは各ヨーロッパ人をアメリカ人の2倍の長さで観察しているので、平均して、ヨーロッパ人ごとに2倍のバスケットを観察したとしましょう。

観測された時間のパラメータと「is European」のインジケータの両方を含むモデルを設定すると、これらのモデルの両方がデータを説明します。

E （ かご ） = 2 c t + 0 {バツ}_{エロピアン}

$E(\text{baskets}) = 2 c t + 0 x_{\text{Eropean}}$

E （ かご ） = 0 t + 2 c {バツ}_{エロピアン}

$E(\text{baskets}) = 0 t + 2 c x_{\text{Eropean}}$

（は一定の定数です。これは、両方のタイプのプレイヤーがバスケットを作る真のレートです） $c$

統計学者として、この状況では、ヨーロッパ人がバスケットを作る割合とアメリカ人がバスケットを作る割合の間に統計的な差がないことを私たちのモデルに知らせる必要があります。しかし、私たちのモデルはそうすることができず、混乱しています。

問題は、ということです、我々は我々のモデルがないことを何か知っていない知っているが。つまり、私たちが期待して、彼らは2倍の数のバスケットを作るだろう、という、私たちは多くの時間と二度のために同じ個体を観察する場合ことを知っています。これを知っているので、それについてモデルに伝える必要があります。これはオフセットが達成するものです。

イベントが時間に沿って均一に発生することがわかっている場合は、おそらくオフセットメソッドを使用するのが適切です。

はい。ただし、これはポアソンモデル自体の仮定です。ポアソン分布のウィキペディアのページから

フランスの数学者SiméonDenis Poissonにちなんで名付けられたポアソン分布は、これらのイベントが既知の平均レートで、独立して発生する場合、一定の時間間隔および/または空間で発生する特定の数のイベントの確率を表す離散確率分布です最後のイベントからの時間。

— マシュー・ドゥルーリー
ソース

ご回答有難うございます。しかし、時間を共変量として使用すると、同じ答えが得られませんか？たとえば、バスケット数に対するアメリカ対ヨーロッパの効果（非常に愚かな例）を評価したい場合、共変量として時間を追加すると、ショットの経過から「独立して」その効果を評価できますが、それ？さらに、結果に対する時間の影響の推定値も得られます。観測期間の開始時にイベントがすべて発生する場合など、カウント変数にとって時間は必ずしも重要ではない場合があります。

— バカバーグ

イベントが時間に沿って均一に発生することがわかっている場合は、おそらくオフセットメソッドを使用するのが適切です。

— バカバーグ

@Bakaburg試みた応答を追加しました。私はそれが役立つことを願っています！

— マシュードゥルーリー