Firthロジスティック回帰によるモデル選択


21

私が作業している小さなデータセット()では、いくつかの変数が完全な予測/分離を提供します。したがって、この問題に対処するには、Firthロジスティック回帰を使用します。n100

AICまたはBICで最適なモデルを選択した場合、これらの情報基準を計算するときに尤度に第5ペナルティ項を含める必要がありますか?


2
変数を選択しても「変数が多すぎる、サンプルサイズが小さすぎる」という問題には役立たないため、なぜ避けられないのか説明していただけますか?
フランクハレル14年

4
それはそれが得るほど悪いです。
フランクハレル14年

1
これをベイジアン推論の問題と考えていますか?第5ロジスティック回帰は、jeffreys事前分布を使用したMAPと同等です。完全ラプラス近似を使用して限界尤度を評価できます-これは調整済みBIC(AICcと同様)のようなものです
確率論的

1
@user、そのような変数は通常少数のケースのみを予測し、それは再現不可能であるため、そのセルの真の確率は90%に近いかもしれませんが、その中に2つのケースしかないと、81%の時間で2つのケースを取得します。
StasK

1
Google Scholar、bemlar.ism.ac.jp
zhuang / Refs /

回答:


1

BICの使用を正当化する場合:最大尤度を事後(MAP)推定の最大値に置き換えることができ、結果の「BIC」タイプの基準は漸近的に有効なままです(サンプルサイズ)。@probabilityislogicで述べたように、Firthのロジスティック回帰は、Jeffreyの事前分布を使用するのと同等です(したがって、回帰近似から得られるのはMAPです)。n

BICは、ほぼ大まかにテイラー級数展開を使用して導出される擬似ベイジアン基準最尤推定値の周りの。したがって、前のものを無視しますが、後者の効果は情報が尤度に集中するにつれて消滅します。

pyy=Lθ;yπθdθ
θ^

副次的な発言として、Firth回帰は、指数族の1次バイアスも除去します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.