プロビットとロジット(および一般的なGLM)の予測の信頼度と予測間隔の導出


8

線形モデルの予測区間の導出は非常に簡単です。線形モデルの予測限界の式を取得します。

自信と導出する方法を予測区間をするために当てはめ値 (一般的にとGLMS)ロジットとプロビット回帰の?


割合やパーセンテージのように、バイナリ結果がサンプリング平均になるように「予測」を定義していますか?
AdamO

@AdamO彼/彼女はロジスティック回帰の予測を予測された条件付き確率として定義していると思います。つまり、予測はp^(x)であり、P(Y | X = x)の推定量でありP(Y|X=x)\ hat {Y}(x)ではありませんY^(x)
DeltaIV 2018

@AdamO良い質問です。私の予測が時間の95%のの将来の値をカバーするような間隔が必要です。これは、予測の間隔に変換される間隔で行うことができます(これは、ごくわずか0、1、または0と1のどちらかです)。yp^
statslearner 2018

1
@statslearnerわかりません。あなたは将来の価値カバー有限区間、したいです、倍のか?これは、です。それはにさえ依存していません、あなたはもっと何を求めることができますか?真剣に、ベルヌーイ出力で予測区間を求めることは意味がないと思います。一方、二項変数にロジスティック回帰を使用している場合、予測間隔は理にかなっています...y100%I=[0,1]x
DeltaIV

@statslearnerええと、ちょっと待って、同じことを話しているのかもしれません。を修正し、回サンプリングし、成功数の予測間隔を探していますか?推定点は明らかにであり、ささいな PIはですが、より良い(短い)間隔が必要です。もしそうなら、ここを見て:stats.stackexchange.com/questions/255570/...をxy|x nnp^(x)100%[0,n]
DeltaIV

回答:


9

GLMでは、予測は非線形関数であり、共変量の積の推定係数ベクトルとの: の有限サンプル分布は一般に不明ですが、が最尤推定である限り、 漸近正規分布があり、尤度関数の最大値のヘッセ行列です。のp値fXβ^

y^=f(Xβ^)
β^β^ N(β,H1)Hβ回帰の出力として表示されるものは、ほとんど常にこの漸近論に基づいています。ただし、サンプルが漸近的に小さすぎると感じる場合は、数値分布を使用してください(例:ブートストラップ)。

(したがって)の漸近正規分布を使用する場合、非線形ため、分布は依然として非正規です。通常の信頼限界を取得-あなたはそれを無視することができのために 、及びにそれらを接続、の境界取得ように。β^バツβ^y^fzlowerzあなたpperバツβfyyloweryあなたpper=fzlowerfzあなたpper

もう1つの戦略(デルタ法と呼ばれる)は、周囲でテイラー展開を行うことです。これはで線形になります。したがって、分布近似することができるとして fバツβ^β^fバツβ^

fバツβ^Nfバツβfバツβ2バツH1バツT

次に、の漸近95%信頼区間はようになります。fバツβ

fバツβ^±1.96fバツβ^2バツHβ^1バツT

これで、この質問のロジスティック回帰のように、特定のモデルのヘッセ行列の式を見つけるだけで済みます。そして、この質問は、ブートストラップ、変換された正規範囲、およびロジスティック回帰のデルタ法の実際的な比較を示しています。


2
しかし、それは信頼区間またはの予測区間与えない。信頼区間だけのようですね。予測区間に考慮される余分なノイズがあるはずだと感じています。y^
statslearner 2018

それは確かに単なる信頼区間です。しかし、バイナリレスポンスモデル(ロジットやプロビットなど)の場合、予測はすでに確率的です。実際の出力は1または0であり、ある程度の確率があります。つまり、「予測間隔」は常にまたは(予測確率が非常に小さい場合)、または(予測確率が非常に大きい場合)のいずれかです。ただし、この予測確率は変動する可能性があり、信頼区間はこれを反映します。[01][00][11]
デビッドデール

4

他のすべてが失敗した場合は、いつでも統計用のブートストラップCIを構築できます。簡単なアルゴリズムは次のとおりです。

  1. から置き換えてサンプルを描画します(はの行数です)。観察の約3分の2がそのようなサンプルに表示されることがわかります。NバツNバツ
  2. これらのサンプルを使用してモデルを適合させます
  3. このモデルを使用して、トレーニングで使用されなかったの観測の予測を生成します。バツ
  4. 各観測の予測のコレクションを累積するには、このプロセスを100回程度(より多くの陽気なほど)繰り返します。このコレクションは、予測の分布の概算です。これらを「ブートストラップ予測」と呼びます。
  5. 予測に分位点をとることによって信頼区間を作成します。たとえば、特定の観測値について、95%信頼区間の0.025および.975分位数を計算します。

2
これは興味深いですが、どのような状況で、95%の時間をカバーできると保証できますか?
statslearner 2018
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.