応答変数の0と1をベータ回帰で正確に処理できないのはなぜですか?


17

多くの場合、0から1の間の値をとる分数、比率、確率などの応答を処理するために、ベータ回帰(ベータ分布と通常はロジットリンク関数を使用するGLM)が推奨されます:結果の回帰(比率または分数) 0と1の間

ただし、応答変数が0または1に少なくとも1回等しくなるとすぐにベータ回帰を使用できないと常に主張されています。その場合、ゼロ/ 1膨張ベータモデルを使用するか、応答の変換などを行う必要があります。1および0を含む比率データのベータ回帰

私の質問は次のとおりです。ベータ分布のどのプロパティが、ベータ回帰が正確な0と1を処理するのを妨げますか、そしてその理由は何ですか?

とはベータ配布をサポートしていないと思います。しかし、すべての形状パラメータのためにと、両方の0と1があるベータ分布の支援では、分布が片側または両側に無限大に行くことをより小さな形状パラメータのみです。そしておそらく、サンプルデータは、とが最適に適合し、両方とも超えるようなものです。01α>1β>1αβ1

場合によって、実際にはゼロ/ 1でもベータ回帰を使用できるということですか?

もちろん、0と1がベータ分布をサポートしている場合でも、正確に0または1を観測する確率はゼロです。しかし、他の与えられた数えられる値のセットを観察する確率はそうなので、これは問題になりえないでしょうか?(@Glen_bによるこのコメント)。

ベータ分布

ベータ回帰のコンテキストでは、ベータ分布は異なる方法でパラメーター化されますが、では、すべてのに対してで明確に定義される必要があります。ϕ=α+β>2[0,1]μ

ここに画像の説明を入力してください


2
興味深い質問です!ケビン・ライトがすでに指摘した点以外に、私は何の答えも持っていません。確率の正確なゼロと1は病理学的なケース(ロジスティック回帰のように)であるため、発生しないはずなので、それほど面白くないと思います。
ティム

1
@Timまあ、彼らが必要か起こるべきではありませんかどうかは知りませんが、彼らはないそれ以外の人は0-について考えていない書き込みの論文、ベータ回帰で0と1の対処方法についての質問をしないだろう、かなり頻繁に起こりますそして、-1ベータモデルなどを膨らませました。とにかく、私はまだケビンのものよりも詳細な答えを望んでいます。少なくとも、対数尤度のこれらの用語がどのように生じるかを説明する必要があります。
アメーバは、2017

1
更新:これはおそらく、0と1がサポート内にある場合、これらのポイントのPDFがゼロに等しいため、これらの値を観察する可能性がゼロであることを意味します。私はまだこれを注意深く説明する答えを見たいです。
アメーバは、モニカを復活させる

したがって、応答変数がたとえば値をとる場合、どの分布を使用する必要がありますか?[0,)
混乱

回答:


16

尤度にはと両方が含まれているため、または場合は無制限です。Smithson&Verkuilenの式(4)の「より良いレモンスクイーザ?ベータ分布の従属変数による最尤回帰」(PDFへの直接リンク)を参照してください。log 1 x x = 0 x = 1log(x)log(1x)x=0x=1


3
ありがとう。ここに論文へ直接のPDFリンクがあります。私はその方程式を見ることができます。(4)またはになるとすぐに故障しますが、一般的なスキームでこれが起こる理由はまだわかりません。y i = 1yi=0yi=1
アメーバは、モニカを復活させる

3
(+1)アメーバ、pdfを見てください:すべてのベータ分布について、と密度はまたはいずれかです。どちらの場合でも、対数尤度は定義されていません。同様に、単一のまたは応答があるとすぐに、尤度のすべての値はゼロ、無限、または不定になり、尤度の最小値が実現される重要なベータパラメータのセットが存在します。したがって、実際の計算は除外され、モデルは識別できません(厳密な意味で)。1 0 + 0 1010+01
whuber

1
@whuberのコメント(これまで私は気づかなかった)と一緒に、これは質問に答えます。主なポイントは、私が尋ねていたパラメーター値について、と尤度はゼロであるということです。101
アメーバは、モニカを復活させる

1
@whuber混乱した理由は、0を観測する確率がありますが、を観測する確率0もあるためです(具体的には、ベータをで取得しましょう)。それにもかかわらず、モデルと一致しているが、あるためではない、そしてそれはだ可能性観測のゼロではなく、観測の可能性 ...ある0.5 α = β = 2 0.5 0 0.5 000.5α=β=20.500.50
アメーバは回復モニカ言う

3
@amoeba尤度は、確率そのものではなく、確率密度に依存します。時々、各観測値に小さいが有限の(無限ではない)間隔の確率(たとえば、測定の精度によって決定される)を含めるか、またはベータ分布を非常に狭いガウスで畳み込むことにより、この問題を回避できます(ゼロおよび無限密度を排除します)。
whuber

2

理由が実際にはとの存在に由来するという事実に加えて、これが起こる根本的な理由をフレーム化することにより、質問に対する答えを補完しようとします。l o g 1 x log(x)log(1x)

実際、ベータ分布は「確率値の分布を記述するためによく使用されます」(wikipedia)。これは、二項分布の可能な傾向の分布であり、ランダム変数の独立したバイナリ描画の観測を知っています。NpN

結果として、ベータ回帰の理解では、0と1は直感的に(無限の)確実な結果に対応します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.