回答:
興味深い質問をありがとう!
違い:標準カウントモデルの1つの制限は、ゼロと非ゼロ(正)が同じデータ生成プロセスに由来すると想定されることです。 ハードルモデルでは、これら2つのプロセスは同じであるという制約はありません。基本的な考え方は、ベルヌーイ確率が、カウント変量がゼロまたは正の実現をもつかどうかのバイナリ結果を支配するということです。実現が正の場合、ハードルが越えられ、正の条件付き分布はゼロで打ち切られたカウントデータモデルによって管理されます。ゼロ膨張モデル、応答変数はベルヌーイ分布(またはゼロ点質量と呼ばれる)とポアソン分布(または非負の整数でサポートされるその他のカウント分布)の混合としてモデル化されます。詳細および式については、例えば、Gurmu and Trivedi(2011)およびDalrymple、Hudson、and Ford(2003)を参照してください。
例:ハードルモデルは、個人が直面する一連の意思決定プロセスによって動機付けられます。最初に何かを購入する必要があるかどうかを決定し、次にその何かの量を決定します(これは正でなければなりません)。何かを購入する決定をした後に何も購入することが許可されていない(または潜在的に購入できる)場合は、ゼロ膨張モデルが適切な状況の例です。ゼロは次の2つのソースから発生する場合があります。a)購入の決定なし。b)購入したかったが、何も購入しなかった(例えば在庫切れ)。
ベータ:ハードルモデルは、Frees(2011)の第16章で説明されている2部モデルの特殊なケースです。そこで、2つの部分からなるモデルの場合、利用されるヘルスケアの量はカウント変数と同様に連続的であることがわかります。したがって、文献でやや紛らわしく「ゼロ膨張ベータ分布」と呼ばれているものは、実際にはハードウェアモデルの上記の定義と一致する2つの部分の分布およびモデル(保険数理科学では一般的)のクラスに属します。この優れた本は、セクション12.4.1のゼロ膨張モデルとセクション12.4.2のハードルモデルについて、保険数理アプリケーションからの式と例を用いて説明しました。
履歴:共変量のないゼロ膨張ポアソン(ZIP)モデルには長い歴史があります(Johnson and Kotz、1969を参照)。共変量を組み込んだZIP回帰モデルの一般的な形式は、Lambert(1992)によるものです。ハードルモデルは、カナダの統計学者クラッグ(1971)によって最初に提案され、その後、ムラヒ(1986)によってさらに開発されました。また、Croston(1972)を検討することもできます。この場合、正の幾何学的カウントがベルヌーイプロセスと一緒に使用され、ゼロが支配的な整数値プロセスを表します。
R:最後に、Rを使用する場合、サイモンジャックマンによる「政治科学計算研究所で開発されたRのクラスとメソッド」のパッケージpsclがあり、Achim Zeileisによるhurdle()およびzeroinfl()関数が含まれています。
上記を作成するために、次の参考文献を参照しました。
ハードルモデルは、ゼロを生成できるプロセスが1つだけであると想定していますが、ゼロ膨張モデルは、ゼロを生成できる2つの異なるプロセスがあると想定しています。
ハードルモデルは、2種類の被験者を想定しています:(1)結果を決して経験しない者と(2)少なくとも1回は常に結果を経験する者。ゼロインフレーションモデルは、被験者を(1)結果を決して経験しない人、および(2)結果を経験できるが常にそうではない人として概念化します。
簡単に言えば、ゼロ膨張モデルとハードルモデルの両方が2つの部分で説明されています。
1つ目はオン/オフ部分で、バイナリプロセスです。システムは、確率で「オフ」、確率で「オン」です。(ここでは、はインフレーション確率として知られています。)システムが「オフ」の場合、ゼロカウントのみが可能です。この部分は、ゼロ膨張モデルとハードルモデルで同じです。1 - π π
2番目の部分は、システムが「オン」のときに発生するカウント部分です。これは、ゼロ膨張モデルとハードルモデルが異なるところです。ゼロ膨張モデルでは、カウントはゼロのままです。ハードルモデルでは、非ゼロでなければなりません。この部分では、ゼロ膨張モデルは「通常の」離散確率分布を使用し、ハードルモデルはゼロ打ち切り離散確率分布関数を使用します。
ハードルモデルの例:自動車メーカーは、その自動車の2つの品質管理プログラムを比較したいと考えています。提出された保証請求の数に基づいてそれらを比較します。プログラムごとに、ランダムに選択された顧客のセットが1年間追跡され、提出した保証請求の数がカウントされます。次に、2つのプログラムのそれぞれのインフレ率が比較されます。「オフ」状態は「ゼロクレームの提出」であり、「オン」状態は「少なくとも1つのクレームの提出」です。
ゼロ膨張モデルの例:上記の同じ研究で、研究者は自動車の修理が保証請求の提出なしに修正されたことを発見しました。このように、ゼロは、品質管理の問題がないことと、保証請求を伴わない品質管理の問題が混在していることを意味します。「オフ」状態は「ゼロクレームの提出」を意味し、「オン」状態は「少なくとも1つのクレームを提出した、またはクレームを提出せずに修理を修正した」ことを意味します。
両方のタイプのモデルが同じデータセットに適用された研究については、こちらをご覧ください。
ハードルモデルについては、Advances in Mathematical and Statistical Modeling(Arnold、Balakrishnan、Sarabia、&Mínguez、2008)からの引用です:
ハードルモデルは、ハードルの下のプロセスと上にあるプロセスによって特徴付けられます。明らかに、最も広く使用されているハードルモデルは、ハードルをゼロに設定するものです。正式には、ゼロのハードルモデルは次のように表されます for for
変数は、ハードルを越える確率、より正確には保険の場合、少なくとも1つの請求を報告する確率として解釈できます。
ゼロ膨張モデルに関しては、ウィキペディアは言う:
ゼロ膨張モデルは、ゼロ膨張確率分布、すなわち、頻繁にゼロ値の観測を可能にする分布に基づく統計モデルです。
ゼロ膨張ポアソンモデルは、単位時間に過剰なゼロカウントデータを含むランダムイベントに関係します。たとえば、保険会社による保険会社への請求件数はほとんど常にゼロです。そうでない場合、大きな損失により保険会社が破産します。ゼロ膨張ポアソン(ZIP)モデルは、2つのゼロ生成プロセスに対応する2つのコンポーネントを使用します。最初のプロセスは、構造ゼロを生成するバイナリ分布によって管理されます。2番目のプロセスは、カウントを生成するポアソン分布によって制御されます。カウントの一部はゼロになる場合があります。2つのモデルコンポーネントの説明は次のとおりです。
ここで、結果変数は負でない整数値があり、は番目の個体の予想されるポアソン数です。は、余分なゼロの確率です。
アーノルドと同僚(2008)から、ハードルゼロのモデルはハードルモデルのより一般的なクラスの特殊なケースであることがわかりますが、Wikipedia(Hall、2004)の参照から、膨張モデルは上限があります。私は式の違いをよく理解していませんが、それらは非常に類似しているようです(どちらも非常に類似した例である保険請求を使用しています)。他の回答が重要な違いを説明するのに役立ち、この回答がそれらの段階を設定するのに役立つことを願っています。
ウィキペディアのリファレンス: