プロビットおよびロジットモデルの限界効果

12

誰でもプロビットとロジットモデルの限界効果を簡単に計算する方法を説明できますか？

私は統計に不慣れで、これら2つのモデルについて混乱しています。

— マーク
ソース

プロビットモデルとロジットモデルから得られる数値は、大体同じものを測定しているように見えますが、数値的に異なる場合が多いことに注意してください。それらを実際の生活に戻すと、通常、この2つの違いははるかに小さくなります。

— Henry

15

与えられた変数、たとえばの限界効果を確認するより良い方法は、縦軸に予測確率の散布図をし、横軸にを持つこと。これは、与えられた変数がどれほど影響力があるかを示す、私が考えることができる最も一般的な方法です。数学はなく、写真だけです。多くのデータポイントがある場合は、ボックスプロットまたはスキャッタープロットスムーザーを使用すると、ほとんどのデータがどこにあるかを確認できます（ポイントのクラウドだけではありません）。 $X_j$ $X_j$

次のセクションが「素人」かどうかはわかりませんが、役に立つかもしれません。

限界効果を見ると、）と呼び、であることに注意してください。 $m_j$ $g(p)=\sum_kX_k\beta_k$

m_{j} = \frac{\partial p}{\partial X_{j}} = \frac{β_{j}}{g^{'} [g^{- 1} (X^{T} β)]} = \frac{β_{j}}{g^{'} (p)}

$m_j=\frac{\partial p}{\partial X_j}=\frac{\beta_j}{g'\left[g^{-1}(X^T\beta)\right]}=\frac{\beta_j}{g'(p)}$

したがって、限界効果は、ベータに加えて、推定確率とリンク関数の勾配に依存します。による除算は、微分の連鎖規則、および。これは、明らかに真の方程式両側を微分することで示すことができます。定義により、ます。ロジットモデルの場合、であり、限界効果は次のとおりです。 $g'(p)$ $\frac{\partial g^{-1}(z)}{\partial z}=\frac{1}{g'\left[g^{-1}(z)\right]}$ $z=g\left[g^{-1}(z)\right]$ $g^{-1}(X^T\beta)=p$ $g(p)=\log(p)-\log(1-p)\implies g'(p)=\frac{1}{p}+\frac{1}{1-p}=\frac{1}{p(1-p)}$

m_{j}^{l o g i t} = β_{j} p (1 - p)

$m_j^{logit}=\beta_jp(1-p)$

これは何を意味するのでしょうか？井戸は、とでゼロであり、で最大値達します。したがって、周辺効果は、確率がに近いときに最大になり、がまたは近いときに最小になります。ただし、依然としてに依存しているため、限界効果は複雑です。実際、これはに依存するため、異なるに対して異なる限界効果が得られます $p(1-p)$ $p=0$ $p=1$ $0.25$ $p=0.5$ $0.5$ $p$ $0$ $1$ $p(1-p)$ $X_j$ $p$ $X_k,\;k\neq j$ 値。おそらく、その単純な散布図を作成する1つの理由として、使用する共変量の値を選択する必要はありません。

プロビットモデルの場合、ここで、は標準の通常のCDF、は標準の通常のpdfです。したがって、次のようになります。 $g(p)=\Phi^{-1}(p)\implies g'(p)=\frac{1}{\phi\left[\Phi^{-1}(p)\right]}$ $\Phi(.)$ $\phi(.)$

m_{j}^{p r o b i t} = β_{j} ϕ [Φ^{- 1} (p)]

$m_j^{probit}=\beta_j\phi\left[\Phi^{-1}(p)\right]$

これには、前に説明した限界効果のほとんどのプロパティがあり、約対称なリンク関数（もちろん、例として）。への依存はより複雑ですが、一般的な「こぶ」形状（に最高点、と最低点）があります。リンク関数は、最大の高さのサイズ（たとえば、プロビットの最大値は、ロジットは）を変更し、限界効果がゼロに向かってどのくらい速くテーパーされるかを変更します。 $m_j^{logit}$ $0.5$ $g(p)=tan(\frac{\pi}{2}[2p-1])$ $p$ $0.5$ $0$ $1$ $\frac{1}{\sqrt{2\pi}}\approx 0.4$ $0.25$

— 確率論的
ソース

effectsR のパッケージは、縦軸の予測確率と横軸のXのこのようなプロットを簡単に作成できます。socserv.socsci.mcmaster.ca/jfox/Misc/effects/index.htmlを

— landroni

参照：stats.stackexchange.com/questions/18814/...

— landroni

5

ロジットモデルとプロビットモデルは、通常、いくつかの入力変数に基づいて従属変数yが0または1である確率を計算するために使用されます。

英語の場合：誰かが一生のうちに心臓病を発症するかどうかなど、バイナリ値を予測しようとしていると仮定します。血圧、年齢、喫煙者であるかどうか、BMI、居住地など、多くの入力変数があります。これらの変数はすべて、誰かが心臓病を発症する可能性に何らかの形で寄与する可能性があります。

単一の入力変数の限界効果は、その変数を少し上げると、心臓病になる確率にどのように影響しますか？血圧がわずかに上昇すると仮定すると、心臓病になる可能性はどのように変化しますか？または、年齢を1年上げるとどうなりますか？

これらの効果の一部は非線形である可能性もあります。BMIをわずかに増加させると、BMIが非常に健康な人とそうでない人とで非常に異なる効果が得られる場合があります。

— 強盗
ソース

1

限界効果は関心のある変数に関する適合確率の導関数であるため、素人にも計算を知ってもらいたいでしょう。適合確率は、適合値に適用されるリンク関数（ロジット、プロビットなど）であるため、それを計算するには連鎖規則が必要です。したがって、線形インデックスモデル（パラメーターがX'bのように入力される）では、パラメーター推定にリンク関数の微分を掛けた値に等しくなります。（線形モデルの場合とは異なり）回帰子の異なる値では導関数が異なるため、限界効果を評価する場所を決定する必要があります。自然な選択は、すべてのリグレッサの平均値です。別のアプローチは、各観測の効果を評価し、それらを平均することです。解釈はそれに応じて異なります。

— アレックス
ソース