ゼロ膨張モデルとハードルモデルの違いは何ですか?


81

いわゆるゼロ膨張分布(モデル)といわゆるハードルアットゼロ分布(モデル)の間に明確な違いがあるのだろうか?これらの用語は文献で非常に頻繁に使用され、それらは同じではないと思いますが、簡単な用語の違いを説明してください。

回答:


80

興味深い質問をありがとう!

違い:標準カウントモデルの1つの制限は、ゼロと非ゼロ(正)が同じデータ生成プロセスに由来すると想定されることです。 ハードルモデルでは、これら2つのプロセスは同じであるという制約はありません。基本的な考え方は、ベルヌーイ確率が、カウント変量がゼロまたは正の実現をもつかどうかのバイナリ結果を支配するということです。実現が正の場合、ハードルが越えられ、正の条件付き分布はゼロで打ち切られたカウントデータモデルによって管理されます。ゼロ膨張モデル、応答変数はベルヌーイ分布(またはゼロ点質量と呼ばれる)とポアソン分布(または非負の整数でサポートされるその他のカウント分布)の混合としてモデル化されます。詳細および式については、例えば、Gurmu and Trivedi(2011)およびDalrymple、Hudson、and Ford(2003)を参照してください。

例:ハードルモデルは、個人が直面する一連の意思決定プロセスによって動機付けられます。最初に何かを購入する必要があるかどうかを決定し、次にその何かの量を決定します(これは正でなければなりません)。何かを購入する決定をした後に何も購入することが許可されていない(または潜在的に購入できる)場合は、ゼロ膨張モデルが適切な状況の例です。ゼロは次の2つのソースから発生する場合があります。a)購入の決定なし。b)購入したかったが、何も購入しなかった(例えば在庫切れ)。

ベータ:ハードルモデルは、Frees(2011)の第16章で説明されている2部モデルの特殊なケースです。そこで、2つの部分からなるモデルの場合、利用されるヘルスケアの量はカウント変数と同様に連続的であることがわかります。したがって、文献でやや紛らわしく「ゼロ膨張ベータ分布」と呼ばれているものは、実際にはハードウェアモデルの上記の定義と一致する2つの部分の分布およびモデル(保険数理科学では一般的)のクラスに属します。この優れた本は、セクション12.4.1のゼロ膨張モデルとセクション12.4.2のハードルモデルについて、保険数理アプリケーションからの式と例を用いて説明しました。

履歴:共変量のないゼロ膨張ポアソン(ZIP)モデルには長い歴史があります(Johnson and Kotz、1969を参照)。共変量を組み込んだZIP回帰モデルの一般的な形式は、Lambert(1992)によるものです。ハードルモデルは、カナダの統計学者クラッグ(1971)によって最初に提案され、その後、ムラヒ(1986)によってさらに開発されました。また、Croston(1972)を検討することもできます。この場合、正の幾何学的カウントがベルヌーイプロセスと一緒に使用され、ゼロが支配的な整数値プロセスを表します。

R:最後に、Rを使用する場合、サイモンジャックマンによる「政治科学計算研究所で開発されたRのクラスとメソッド」のパッケージpsclがあり、Achim Zeileisによるhurdle()およびzeroinfl()関数が含まれています。

上記を作成するために、次の参考文献を参照しました。

  • Gurmu、S.&Trivedi、PKレクリエーション旅行のためのカウントモデルの過剰ゼロジャーナル・オブ・ビジネス・アンド・エコノミクス統計、1996、14、469-477
  • ジョンソン、N。、コッツ、S。、統計の分布:離散分布。1969年、ホートン・ミジン、ボストン
  • Lambert、D.、製造における欠陥への適用を伴うゼロ膨張ポアソン回帰。Technometrics、1992、34(1)、1–14。
  • Cragg、JG耐久財の需要への適用を伴う限定従属変数のいくつかの統計モデルEconometrica、1971、39、829-844
  • Mullahy、J.修正カウントデータモデルの仕様とテストJournal of Econometrics、1986、33、341-365
  • Frees、数理計算および金融アプリケーションを使用したEW回帰モデリングCambridge University Press、2011年
  • ダルリンプル、ML; ハドソン、イリノイ&フォード、RPK有限混合、ゼロ膨張ポアソンおよびハードルモデル、SIDS計算統計およびデータ分析への応用、2003、41、491-504
  • Croston、断続的な要求に対するJD予測および在庫管理四半期ごとの運用調査、1972年、23、289-303

2
それでは、ハードルモデルは本当に「モデル」そのものなのでしょうか。または、2つの連続した、別々に推定されたモデルを実行していますか?競争力スコア(1-勝利のマージン)を見て選挙戦の競争力をモデル化することを想像してください。同順位がないため(1など)、これは[0、1)に制限されます。そこで、最初にロジスティック回帰を実行して、0対(0、1)を分析します。次に、ベータ回帰を実行して(0、1)ケースを分析します。これらは、独自の係数と個別の推定を備えた、2つの完全に異なるモデルのようです。それとも何か不足していますか?
マークホワイト

たとえば、回答の中で、ゼロは(a)車を買わないと決めた、または(b)買いたいと思ったが、在庫がなかったことが原因であると述べています。ハードルモデルは2つを区別できないようです。なぜなら、それらは順番に行われるからです...?
マークホワイト

別の例を考えてみましょう。応答は、従来のリッカート尺度のように、7の巨大な天井効果を持つ[1、7]です。観測された応答が7未満のすべてのケースで、再び2セットの回帰係数を取得し、それらは別々に推定されます。これらのプロセスを共同でモデリングしているのではなく、まったく異なる2つのモデルでモデリングしているようです。では、ハードルは実際にはモデルですか、それとも2つの異なるタイプの一般化線形モデルを連続して実行するプロセスですか?
マークホワイト

私はここで自分の記事でこの質問を拡張:stats.stackexchange.com/questions/320924/...
マーク・ホワイト

47

ハードルモデルは、ゼロを生成できるプロセスが1つだけであると想定していますが、ゼロ膨張モデルは、ゼロを生成できる2つの異なるプロセスがあると想定しています。

ハードルモデルは、2種類の被験者を想定しています:(1)結果を決して経験しない者と(2)少なくとも1回は常に結果を経験する者。ゼロインフレーションモデルは、被験者を(1)結果を決して経験しない人、および(2)結果を経験できるが常にそうではない人として概念化します。

簡単に言えば、ゼロ膨張モデルとハードルモデルの両方が2つの部分で説明されています。

1つ目はオン/オフ部分で、バイナリプロセスです。システムは、確率で「オフ」、確率で「オン」です。(ここでは、はインフレーション確率として知られています。)システムが「オフ」の場合、ゼロカウントのみが可能です。この部分は、ゼロ膨張モデルとハードルモデルで同じです。1 - π ππ1ππ

2番目の部分は、システムが「オン」のときに発生するカウント部分です。これは、ゼロ膨張モデルとハードルモデルが異なるところです。ゼロ膨張モデルでは、カウントはゼロのままです。ハードルモデルでは、非ゼロでなければなりません。この部分では、ゼロ膨張モデルは「通常の」離散確率分布を使用し、ハードルモデルはゼロ打ち切り離散確率分布関数を使用します。

ハードルモデルの例:自動車メーカーは、その自動車の2つの品質管理プログラムを比較したいと考えています。提出された保証請求の数に基づいてそれらを比較します。プログラムごとに、ランダムに選択された顧客のセットが1年間追跡され、提出した保証請求の数がカウントされます。次に、2つのプログラムのそれぞれのインフレ率が比較されます。「オフ」状態は「ゼロクレームの提出」であり、「オン」状態は「少なくとも1つのクレームの提出」です。

ゼロ膨張モデルの例:上記の同じ研究で、研究者は自動車の修理が保証請求の提出なしに修正されたことを発見しました。このように、ゼロは、品質管理の問題がないことと、保証請求を伴わない品質管理の問題が混在していることを意味します。「オフ」状態は「ゼロクレームの提出」を意味し、「オン」状態は「少なくとも1つのクレームを提出した、またはクレームを提出せずに修理を修正した」ことを意味します。

両方のタイプのモデルが同じデータセットに適用された研究については、こちらをご覧ください。


詳細な回答をありがとう。ゼロが追加された標準ベータ版の配布に適切な用語は何ですか?ゼロインフレーションモデルの定義を使用すると、明らかにゼロのソースが1つあるため、ゼロインフレーションと呼ぶことはできません。この議論を参照してくださいstats.stackexchange.com/questions/81343/…– skulker 2014
1

2
私は@Hibernatingにより示唆されるように、「ゼロ・追加ベータ分布」が好き
ダレン・ジェームス・

10

ZIPモデルで確率を有する〜0と〜ポアソン()確率分布、従ってZIPモデルは、2成分との混合モデルであり: yiπyiλ1π

Pr(yj=0)=π+(1π)eλ
Pr(yj=xi)=(1π)λxieλxi!,xi1

そして、ハードルモデルの確率で〜0と〜切り捨てポワソン()確率で分布、および: yiπyiλ1π

Pr(yj=0)=π
Pr(yj=xi)=(1π)1eλ(λxieλxi!),xi1

4

ハードルモデルについては、Advances in Mathematical and Statistical Modeling(Arnold、Balakrishnan、Sarabia、&Mínguez、2008)からの引用です:

ハードルモデルは、ハードルの下のプロセスと上にあるプロセスによって特徴付けられます。明らかに、最も広く使用されているハードルモデルは、ハードルをゼロに設定するものです。正式には、ゼロのハードルモデルは次のように表されます for forP(Ni=ni)=f1(0)ni=0 P(Ni=ni)=1f1(0)1f2(0)f2(ni)=ϕf2(ni)ni=1,2,...

変数は、ハードルを越える確率、より正確には保険の場合、少なくとも1つの請求を報告する確率として解釈できます。ϕ

ゼロ膨張モデルに関しては、ウィキペディアは言う

ゼロ膨張モデルは、ゼロ膨張確率分布、すなわち、頻繁にゼロ値の観測を可能にする分布に基づく統計モデルです。

ゼロ膨張ポアソンモデルは、単位時間に過剰なゼロカウントデータを含むランダムイベントに関係します。たとえば、保険会社による保険会社への請求件数はほとんど常にゼロです。そうでない場合、大きな損失により保険会社が破産します。ゼロ膨張ポアソン(ZIP)モデルは、2つのゼロ生成プロセスに対応する2つのコンポーネントを使用します。最初のプロセスは、構造ゼロを生成するバイナリ分布によって管理されます。2番目のプロセスは、カウントを生成するポアソン分布によって制御されます。カウントの一部はゼロになる場合があります。2つのモデルコンポーネントの説明は次のとおりです。[1]

Pr(yj=0)=π+(1π)eλ
Pr(yj=hi)=(1π)λhieλhi!,hi1
ここで、結果変数は負でない整数値があり、は番目の個体の予想されるポアソン数です。は、余分なゼロの確率です。yjλiiπ

アーノルドと同僚(2008)から、ハードルゼロのモデルはハードルモデルのより一般的なクラスの特殊なケースであることがわかりますが、Wikipedia(Hall、2004)の参照から、膨張モデルは上限があります。私は式の違いをよく理解していませんが、それらは非常に類似しているようです(どちらも非常に類似した例である保険請求を使用しています)。他の回答が重要な違いを説明するのに役立ち、この回答がそれらの段階を設定するのに役立つことを願っています。

ウィキペディアのリファレンス:

  1. ランバートD.(1992)。製造時の欠陥への適用を伴うゼロ膨張ポアソン回帰。Technometrics、34(1)、1–14。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.