ベータ/ディリクレ回帰が一般化線形モデルと見なされないのはなぜですか?


26

前提は、Rパッケージbetareg1のビネットからのこの引用です。

さらに、モデルはいくつかのプロパティ(線形予測子、リンク関数、分散パラメーターなど)を一般化線形モデル(GLM、McCullaghおよびNelder 1989)と共有しますが、このフレームワークの特殊なケースではありません(固定分散ではありません) )

この答えは、事実を暗示しています。

[...]これは、応答変数がベータとして配布される場合に適したタイプの回帰モデルです。一般化線形モデルに類似している考えることができます 。それはまさにあなたが探しているものです[...](私の強調)

質問のタイトルはそれをすべて言っています:なぜベータ/ディリクレ回帰は一般化線形モデルと見なされないのですか?


私の知る限り、一般化線形モデルは、独立変数を条件とする従属変数の期待に基づいて構築されたモデルを定義します。

fは期待値をマップするリンク関数、は確率分布、は結果、は予測子、\ betaは線形パラメーター、\ sigma ^ 2は分散です。YgYXβσ2

f(E(YX))g(βX,Iσ2)

異なるGLMは平均と分散の関係を課します(または緩和します)が、gは指数ファミリーの確率分布でなければなりません。これは、正しく思い出せば推定の堅牢性を向上させる望ましい特性です。ただし、ベータおよびディリクレ分布は指数関数ファミリーの一部であるため、私はアイデアを失っています。


[1] Cribari-Neto、F.&Zeileis、A.(2009)。Rのベータ回帰



@amoebaリンクをありがとう、以前にその質問を見たことがない。
Firebug

2
私が考える問題は、あなたが標準とベータ分布書く場合はその中で、パラメータを(つまり、均一な(0,1)を意味する)あなたはそれを書く場合は、ベータ分布は、指数分布族であります面で(平均値)と(分散)、そうではありません。しかし、分布が指数関数族であるかどうかはあまり気にしませんでした。、B = B = 1 μ φaba=b=1μϕ
クリフAB

@CliffABティムの以下の答えにあるコメントを読んだ後、ベータのパラメーター化はパラメーターの非直交性につながるようであり、これはMcCullagh-Nelder GLMの要件のようです。
Firebug

1
私はこの短い答えだと思います:stats.stackexchange.com/a/18812/28666は関連性があり、ここの答えに追加されます(GLMが最初に指数分散ファミリで定義された理由のヒント)。
アメーバは、モニカを復活させる

回答:


20

元の参照を確認します。

フェラーリ、S。、およびCribari-Neto、F。(2004)。モデリング率と比率のベータ回帰。Journal of Applied Statistics、31(7)、799-815。

著者が述べているように、再パラメーター化されたベータ分布のパラメーターは相関しているため、

注パラメータは、そのφは、一般化線形回帰モデル(McCullaghが及びネルダー、1989)のクラスに検証されているものとは対照的に、直交していません。βϕ

したがって、モデルはGLMのように見え、GLMのように見えますが、フレームワークに完全には適合しません。


7
+1ですが、より詳細な回答が得られたら嬉しいです。私は個人的に、引用を理解していません(リンクされた論文を開いた後でも)。これらのパラメーターがベータ回帰で直交しないのはなぜですか?.. GLMにこれが必要な理由?..など
アメーバは

3
@amoeba正直なところ、私はあなたにそれについて詳細な答えをすることができるような人ではありません。GLMの背後にある理論にそれほど興味がなかったので、このような微妙な点について十分に理解できました。McCullaghとNelderはこの要件に言及していますが、正確にそれが重要である理由を確認するには、彼らの本を確認する必要があります。誰かがこれがなぜ問題なのか詳細な説明をするなら、私はそのような答えのために賞金を払うことを考えるだろう。
ティム

9
GLMSにおける直交性の要件が重要である:それはあなたが方程式を推定することができることを意味可能性の残りの部分をmisspecifying気にせず。上記の平均方程式が正しく指定されていれば、パラメーター推定値は一貫しています。さらに、分散が正しく指定されている場合、推論は有効です。ただし、ベータ回帰では、ϕが単なる定数であっても、この方法で2つのモデル方程式を分離することはできません。一貫した結果を得るには、すべてを正しく指定する必要があります。g(μ)=xβϕ
アヒムザイレイス

3
@AchimZeileis CVであなたの名前を見たことを思い出した。あなたの言うことは完全に理にかなっています。いくつかの理論的根拠を追加して、コメントを回答に変換したいと思うかもしれません。私が言ったように、質問に対して十分な詳細な回答をしてくれた人に賞金を授与することができればうれしいです。
ティム

2
@Timは時間があるときにそうしようとします。だからこそ、簡単なコメントは何もないよりはましだと思ったのです...
Achim Zeileis

8

@probabilityislogicによる答えは正しい方向に向かっています。

ベータ分布は、2つのパラメーターの指数ファミリーに属しますNelder and Wedderburn(1972)によって記述された単純なGLMモデルには、2つのパラメーターの指数関数ファミリーのすべての分布が含まれていません。

N&Wの記事の観点から、GLMは次のタイプの密度関数に適用されます(これは後に Jørgensen1987で指数分散ファミリーと名付けられました)。

π(z;θ,ϕ)=exp[α(ϕ){zθg(θ)+h(z)}+β(ϕ,z)]

追加のリンク機能を持つ自然パラメータおよび線形モデルθ = F μ = F X β f()θ=f(μ)=f(Xβ)


したがって、上記の分布も書き直すことができます。

π(z;μ,ϕ)=exp[z(f(μ)α(ϕ))+h(z)α(ϕ)g(f(μ))α(ϕ)+β(ϕ,z)]

2つのパラメーターの指数ファミリーは次のとおりです。

f(z;θ1,θ2)=exp[T1(z)η1(θ1,θ2)+T2(z)η2(θ1,θ2)g(θ1,θ2)+h(z)]

これは似ていますが、より一般的です( 1つが一定の場合も同様)。θ


違いは明らかであり、ベータ分布をGLMとしてフォームに入れることもできません。

ただし、より直感的で十分な情報に基づいた回答を作成するための十分な理解がありません(さまざまな基本原則に対して、より深く、よりエレガントな関係があると感じています)。GLM は、最小二乗モデルの代わりに単一の変量指数分散モデルを使用して誤差の分布を一般化し、リンク関数を使用して平均の線形関係を一般化します。

最良かつ最も単純な直観は、指数の分散項であると思われます。これは、すべてで乗算されるため、分散はθで変化しません。一方、いくつかの2つのパラメーター指数ファミリー、および準尤度法では、分散パラメーターもθの関数にできます。α(ϕ)θθ


第2のパラメータ N&Wには、DFが分散で定義されました。これは、1つのパラメータの天然指数家族延びているπ Z ; θ ϕπ(z;θ)
セクストス・エンペイリコス

@amoebaベータは、2変量指数ファミリー分布です。たとえば、www2.stat.duke.edu / courses / Spring11 / sta114 / lec / expofam.pdf
ティム

2
分散が固定されていても、それが完全に可能でないかどうかはわかりません。少なくともN&Wが述べたglmによれば(私が知っていることは、多くの人がベータ回帰を解決するためにより多くの困難なことをしているということです)。繰り返し再重み付けされた最小二乗法の同じパスをたどろうとする場合、何が起こるか、どこでうまくいかないかを示すために答えを編集します。
セクストゥスエンピリカス

2
回答を多少編集しました。1)家族と分散モデルの私の最初の説明は間違っていました。GLMには、その密度関数だけでなく、リンク関数でもあるため、1つのパラメーター指数族のすべての分布が含まれます。2)より直観的な見方という点では、私は遠くに行くことができず、すぐに遠くに行くとは思わない。GLMモデルはフィッティング手順のマトリックス製剤に重みを加えること、様々な表現で、古典的なモデルに関連し、リンク関数と分散との用語を含む対数尤度関数の誘導体.....
セクストス・エンペイリコス

2
私はあなたの答えを少し編集する自由を取りました、あなたが編集でうまくいくことを願っています。また、この回答のように見えますstats.stackexchange.com/a/18812/28666は、N&Wがこの特定のディストリビューションファミリを使用した理由のヒントであり、より広範なディストリビューションファミリではありません。
アメーバは、モニカを復活させる

2

ベータ分布は指数分散ファミリーの一部ではないと思います。これを取得するには、密度が必要です

f(y;θ,τ)=exp(yθc(θ)τ+d(y,τ))

指定された関数およびd )の場合。平均は、以下のように与えられるC "θ と分散は、以下のように与えられますτ C θ 。パラメータθは標準パラメータと呼ばれます。c()d()c(θ)τc(θ)θ

ベータ分布をこのように書くことはできません-これを確認する1つの方法は、対数尤度に項がないことに注意することです-代わりにlog [ y ]log [ 1 y ]がありますylog[y]log[1y]

fbeta(y;μ,ϕ)=exp(ϕμlog[y1y]+ϕlog[1y]log[B(ϕμ,ϕ(1μ)]log[y1y])

ベータが指数分散ファミリではないことを確認するさらに別の方法は、y = xと書くことができることですxzは独立しており、両方とも同じスケールパラメーターでガンマ分布に従います(ガンマは指数関数族です))。y=xx+zxz


1
書かれているとおり、この答えは正しくありません。これを確認する1つの方法は、提示されたロジックによると、たとえばベルヌーイ分布と二項分布も指数族のクラスに含まれないことです。
枢機

2
申し訳ありませんが、私が与えた例が間違っていたことは正しいです。(警告:CrossValidatedの暗算とモバイル使用は危険な場合があります!)しかし、私のポイントはまだ立っています。この答えは、「指数関数ファミリー」という非常に狭く「定義された」概念を選択するため、正しくありません。
枢機

2
うーん ウィキペディア、指数関数的家族分布のリストにベータ版をリストしています
アメーバは、モニカを復活させる

1
本当-私は自然な指数関数族を考えていた-これは特別なケースである
確率論的

1
関数内のパラメーターもリンク関数によって記述され、この狭義に定義された分布関数はより広くなり、1つのパラメーター指数族のすべての分布を含みますが、2つのパラメーター指数族の一部のみが含まれます。θ
セクストゥスエンピリカス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.