DVがスタートアップによって得られた資金の額（米ドル）である回帰を実行したいと思います。当然、DVには多くのゼロ（〜55％）が含まれ、y> 0の連続分布があります。

一般に、私の理解では、Tobitモデル（またはそのバリエーション）はこのDVをモデル化するのに適しています。

今月も読んで議論しているが、標準のTobit（1958）モデル、Cragg（1971）によって提案された2部の拡張と、たとえばHeckmannで表されるTobit Type 2モデルの正確な違いに頭を悩ませている。（1974、1976、1979）。私の現在の理解は、すべてのモデルが理論的にはさまざまな長所と短所に適用可能であり、それらをまったく使用しない理由の可能性があることです（データセットの正確な特性によって異なります）。

標準のTobitモデルを除外した理由

私のアプリケーションでは、標準のTobitモデルを除外しました。これは、両方のプロセスが同じ変数によってのみ制御され、1つの係数のみが報告されるためです。したがって、特定の変数の効果は、選択と結果の方程式に異なる符号を付けることはできません（場合によってはそうなります）。

Tobit Type 2（またはHeckmann選択モデル）と2パーツモデル（Cragg）

これまでの私の理解は、2つのモデルの主な違いは、2つの部分のモデルが真のゼロのみを仮定するという事実であるのに対し、Tobit Type 2は、観測されていないゼロ（たとえば、一般に喫煙をしない人は、 a 0で、一般的に喫煙するが、ある時点で喫煙する余裕がない人も0です）

ただし、Cragg（1971）がもともと2つのハードルモデルを提案していたため、yの正の値が観測される前に2つのハードルを克服する必要があるため、これは完全に真実ではありません。喫煙者であるかどうかはありません。]]次に、肯定的な願望が実行されるためには好ましい状況が発生する必要があります（つまり、私は喫煙者であり、喫煙するのに十分な資金を持っています）]。

これは、Tobit Type IIが最初の選択式で両方のタイプのゼロ（または観測されていないだけですか？）を説明し、結果の式がy> 0で切り捨てられることを意味すると思います。単一ハードルCraggモデルは選択の真のゼロのみを説明します方程式とダブルハードルクラッグモデルは、選択中に「観測されていない」ゼロを、結果方程式中に「真の」ゼロを考慮します。

ご質問

3つのモデルに関する私の説明は正しいですか？そして、これは正確にはどういう意味ですか？ゼロのソースが唯一の/主要な決定基準ですか？もしそうなら、これは私のデータに関して私にとって意味があります：スタートアップは資金を申請するかどうかを決定します（ゼロの最初のソース->観察されません）、その後、市場は資金を供給するかどうかを決定します（ゼロの2番目のソース->観察されます）肯定的な場合、どのくらい（y> 0）->クラッグの二重ハードルモデル（単一のハードルモデルと間違われることが多い実際の「二重」ハードルモデル）
私の（潜在的に間違っている）結論に関係なく：使用するモデルのタイプ（Tobit Type 2（Heckmann）モデルまたは2つの部分のモデル（単一ハードル（すべてゼロ）真のゼロ）またはダブルハードル（選択と消費時にゼロが発生する可能性があります））？ゼロのソースだけではありませんか？

追加情報

この論文（素晴らしい読み物です！Brad R. Humphreys、2013年https://sites.ualberta.ca/~bhumphre/class/zeros_v1.pdf）と特に重要なグラフィックの1つは、観測されていないゼロ（つまり、データが不足している、企業が資金調達を求めていない）、ゼロ（すなわち、投資家が資金提供を行っているかどうか）を非常によく観察した。また、使用するモデルに関するガイダンスも提供しますが、残念ながら、両方のタイプのゼロが同時に存在するデータのソリューションは提供しません。

可能な解決策

さらに掘り下げた後、私が探しているものを正確に統計的に解決する2つの論文を見つけました。

Blundell、Richard and Meghir、Costas、（1987）、Bivariate Alternatives to the Tobit model、Journal of Econometrics、34、issue 1-2、p。179-200。（http://sites.psu.edu/scottcolby/wp-content/uploads/sites/13885/2014/07/Blundell1987_Bivariate-alternatives-to-the-tobit-model.pdf）は、依存関係を想定した二重ハードルモデルについて説明しています。アプリケーションについては、Blundell、Richard、Ham、JohnおよびMeghir、Costas（1987）、Unemployment and Female Labour Supply、Economic Journal、97、issue 388a、p。44〜64歳。
Moulton、Lawrence H.、およびNeal A. Halseyが別のソリューションを提供しています。「ワクチンに対する抗体反応の回帰分析のための検出限界を備えた混合モデル。」バイオメトリクス、vol。51、いいえ。4、1995、pp。1570–1578。www.jstor.org/stable/2533289は、両方のタイプのゼロも考慮する打ち切りデータのベルヌーイ/対数正規混合モデルについて説明しています。

残念ながら、私はStataまたはRで信頼できる実装を見つけることができませんでした（mhurdleと呼ばれるパッケージがありますが、重みでうまく機能せず、ランダムエラーをスローしているようです...）

コメントやその他のアイデアはありますか？

— JNWHH
ソース

自分で答えを見つけましたか？もしそうなら、以下に答えてください—あなたが提起した質問への答えに興味があります。

— Mark White、

質問してくれてありがとう、マーク。私のデータのコンテキストでは、Blundellによって提案された二重ハードルモデル（提案されたソリューションの最初の箇条書き）を使用することになりました。私が学会で受け取ったフィードバックに基づくと、これは実行可能なアプローチのようです。結局、R-package mhurdleを使ってしまいました。重みは単に機能しません-コードの残りの部分は非常にしっかりしているようです。

私の特定の質問について; 私はそれらすべてに明確な答えはありませんが、私が学んだことを要約してみましょう：

3つのモデルに関する私の説明は正しいですか？ そうそう-はい

ゼロのソースが唯一の/主要な決定基準ですか？ 確かにこれらは唯一の決定基準ではありませんが、質量点がゼロのデータのコンテキストでは、ゼロが生成される方法を理解するためにかなりの時間を費やすことが非常に重要です。

使用するモデルのタイプを決定する際に検討/検討すべき重要な決定基準は何ですか？ 従属変数のタイプとその分布に関する明らかな質問の他に、質量点がゼロのデータに関する2つの主な質問は次のとおりです。結果を2つの異なる段階で区別しますか、それとも1セットの係数を報告するだけで十分ですか？その場合は、Tobitモデルを使用できます。それ以外の場合は、ゼロのさまざまなソースについての議論が関係する2部構成のモデルが必要です。

ゼロの発生源は「単なる」以上のものですか？ うん-あります。少なくとも2つ：観測された/真のゼロと観測されていない/偽のゼロ（後者は実際にはNAまたは0として記録される非常に小さな値のいずれか）

これが少し役立つことを願っています！ヤン

— JNWHH
ソース

2パーツモデル（Craggなど）とTobitタイプ2モデル（Heckmanなど）の正確な違い

追加情報

可能な解決策