回答:
オフセットは、どの回帰モデルでも使用できますが、応答変数のカウントデータを操作する場合は、より一般的です。オフセットは、モデル内の係数がになるように強制される単なる変数です。(この優れたCVスレッドも参照してください:ポアソン回帰でオフセットを使用するタイミング?)
カウントデータを正しく使用する場合、これはあなたがモデル化できるようになる率の代わりに、カウントを。それが興味深いのであれば、それはやるべきことです。したがって、これはオフセットが最も頻繁に使用されるコンテキストです。ログリンク(標準リンク)を持つポアソンGLiMを考えてみましょう。
(ご覧のとおり、オフセットを正しく使用するための鍵は、ではなくオフセットにすることです。 t i m e
の係数がでない場合、レートをモデリングしていません。ただし、はデータを適合させる柔軟性がはるかに高いため、オフセットとしてを使用しないモデルは通常よりよくフィットします(ただし、オーバーフィットすることもあります)。 1 β 2 ∈ (- ∞ 、1 )∪ (1 、∞ )LN (T iがm個E)
カウントまたはレートをモデル化する必要があるかどうかは、実質的な質問によって異なります。知りたいものに対応するモデルを作成する必要があります。
がでないことの意味については、時間が問題の変数ではない例を考えてください。さまざまな病院で外科的合併症の数を調査することを想像してください。ある病院ではさらに多くの外科的合併症が報告されていますが、より多くの手術を行うため、比較は公平ではないと主張するかもしれません。そこで、あなたはこれを制御しようとすることにします。オフセットとして手術回数のログを使用するだけで、手術ごとの合併症の割合を調べることができます。手術回数のログを別の共変量として使用することもできます。係数がとは大きく異なるとしましょう。場合 1 1 β 2 > 1 β 2 < 1、その後、より多くの手術を行う病院は合併症の発生率が高くなります(おそらく、彼らは仕事を急いでより多くの仕事をしているためです)。場合、最も多くの病院が手術ごとの合併症が少なくなります(おそらく、最高の医師がいるので、より多くのことを行い、より良い治療を行います)。
問題の変数が時間である場合にこれがどのように発生するかを確認することは、もう少し複雑です。ポアソン分布から生じるポアソン過程イベント間の時間が指数関数的に分布している、したがって生存分析に天然接続があります。生存分析では、イベントまでの時間は指数関数として分布しないことがよくありますが、ベースラインのハザードは時間とともに大きくなったり小さくなったりする可能性があります。したがって、自然な開始点に続いて発生するイベントの数をモデル化している場合を考えてください。場合、イベントの速度が速くなっていることを意味し、場合、イベントの速度は遅くなっています。 β 2 < 1
前者の具体例として、最初の腫瘍が外科的に切除された後の一定期間に癌細胞の数を数えるスキャンを想像してください。一部の患者では、手術からさらに時間が経過しており、それを考慮したいと考えています。がんが足場を取り戻すと指数関数的に成長し始めるので、追加治療なしで手術を行ってからその割合は時間とともに増加します。
後者の具体的な例として、治療を受けていない病気の流行で死亡した人の数を考えてみましょう。最初は、多くの人がその病気にかかりやすいか、すでに免疫系が損なわれているなどの理由で死亡します。時間が経つにつれて、残っている人の人口が病気にかかりにくいため、その割合は減少します。(この例はとても病的です。)
通常、時間オフセットは、単位時間あたりのイベントの発生率を推定するモデルとして表示できます。オフセットは、さまざまな対象を観察する時間を制御します。
ポアソンモデルでは、何かが起こる率を常に推定していますが、この率を直接観察することはできません。あなたはないイベントがある程度の時間にわたり発生した回数を観察するために取得します。オフセットにより、2つの概念がつながります。
たとえば、被験者がさまざまな時間バスケットを撃っているのを観察し、各被験者の成功したバスケットの数を数えました。各被験者がバスケットを沈める頻度、すなわち各被験者が毎分沈めると期待する成功したバスケットの数に本当に興味があるのは、それが彼らのスキルのやや客観的な尺度であるためです。あなたが実際に沈んだのを観察したバスケットの数は、この推定率に、あなたが試みている対象を観察した時間を掛けたものになります。そのため、応答の単位、つまり1分あたりのバスケットの数の観点から考えることができます。
ポアソン回帰で共変量として観測される時間を使用する状況を考えるのは困難です。その性質上、レートを推定しているからです。
たとえば、バスケット数に対するアメリカ対ヨーロッパの効果(非常に愚かな例)を評価したい場合、共変量として時間を追加すると、ショットの経過から「独立して」その効果を評価できますが、それ?さらに、結果に対する時間の影響の推定値も提供します。
以下に、この危険性を強調した例を示します。実際、アメリカ人とヨーロッパ人は毎分同じ数のバスケットを沈めると仮定します。しかし、私たちは各ヨーロッパ人をアメリカ人の2倍の長さで観察しているので、平均して、ヨーロッパ人ごとに2倍のバスケットを観察したとしましょう。
観測された時間のパラメータと「is European」のインジケータの両方を含むモデルを設定すると、これらのモデルの両方がデータを説明します。
(は一定の定数です。これは、両方のタイプのプレイヤーがバスケットを作る真のレートです)
統計学者として、この状況では、ヨーロッパ人がバスケットを作る割合とアメリカ人がバスケットを作る割合の間に統計的な差がないことを私たちのモデルに知らせる必要があります。しかし、私たちのモデルはそうすることができず、混乱しています。
問題は、ということです、我々は我々のモデルがないことを何か知っていない知っているが。つまり、私たちが期待して、彼らは2倍の数のバスケットを作るだろう、という、私たちは多くの時間と二度のために同じ個体を観察する場合ことを知っています。これを知っているので、それについてモデルに伝える必要があります。これはオフセットが達成するものです。
イベントが時間に沿って均一に発生することがわかっている場合は、おそらくオフセットメソッドを使用するのが適切です。
はい。ただし、これはポアソンモデル自体の仮定です。ポアソン分布のウィキペディアのページから
フランスの数学者SiméonDenis Poissonにちなんで名付けられたポアソン分布は、これらのイベントが既知の平均レートで、独立して発生する場合、一定の時間間隔および/または空間で発生する特定の数のイベントの確率を表す離散確率分布です最後のイベントからの時間。