GLMがモードではなく平均を予測するのはなぜですか?


8

GLMが信号のモードではなく平均を予測するのはなぜですか?これは、GLMの背後にある基本、つまり最尤法と矛盾していませんか?GLMのモデルパラメーターを解くための方程式は、モデル化された信号の確率分布によって記述される尤度の最大化に基づいています。この確率分布は、平均ではなくモードの最大値です(正規分布は例外です:モードと平均の両方が同じです)。したがって、GLMは信号の平均ではなくモードを予測する必要があります。(この質問の背景については、こちらを参照してください。)


私はこれを答えとしては少し錆びていますが、考えられる条件付き平均の分布があり、GLMがその分布のモードを提供するという考えです。(つまり、平均のモーダル推定値です。)
Shea Parkes

1
StackExchangeモデルを反映するようにタイトルを編集しました-質問は質問であり、意見ではありません。(質問の本文を一種の暴言のように聞こえないようにする必要があります。)
Glen_b -Reinstate Monica

7
モデルがデータの分布を記述しようとしている間、尤度はパラメーターの関数であることに注意してください。矛盾はありません。確かに、フィットされた比率が0.2から0.475の範囲であるバイナリデータのロジスティック回帰を検討してください。ベルヌーイ分布のモードはいずれの場合も0です-つまり、モデルは完全に0で構成される必要があるということですか?これは、平均のモデルほど有用ではありません。
Glen_b-2015

3
余談ですが、あなたの応答のモードは非常に有益ではないかもしれません。最も極端な例では、ベルヌーイ分布のモードは常に0または1のどちらかになります
クリフAB

9
最尤で最大化されるのは、データの分布の密度ではなく、パラメーターの尤度です。
Glen_b-2015

回答:


13

最尤フィッティングの目的は、データに最も適合するいくつかの分布のパラメーターを決定することです。より一般的には、これらのパラメーターが共変量によってどのように変化するかを示します。GLMの場合、いくつかの指数ファミリー分布のパラメーターと、それらがいくつかの共変量関数である方法を決定する必要があります。XθX

過剰分散指数ファミリーの確率分布の場合、平均は、正規リンク関数を通じて正規指数ファミリーパラメーター関連付けられることが保証されています。一般的な式決定することもできます。通常、も可逆です。とを単純に設定すると、どの分布を扱っていても、によってとがどのように変化するかについてのモデルが自動的に取得されます。そのモデルはθ θ = G μ G G μ = G - 1θ θ = X β μ θ Xμθθ=g(μ)ggμ=g1(θ)θ=XβμθX凸最適化により、データに簡単かつ確実に適合しますマットの答えはそれがベルヌーイ分布でどのように機能するかを示していますが、本当の魔法はそれが家族のすべての分布で機能することです。

モードはこれらのプロパティを享受しません。実際、Cliff ABが指摘しているように、モードには分布パラメーターとの全単射関係さえない可能性があるため、モードからの推論は非常に限定されたパワーです。たとえばベルヌーイ分布を考えてみましょう。そのモードは0または1のいずれかであり、モードを知っていることは、確率1であるが1/2より大きいか小さいかを知るだけです。対照的に、平均はが何であるかを正確に示します。ppp

ここで、質問のいくつかの混乱を明確にするために、尤度は分布と同じ関数ではないため、最大尤度は分布のモードを見つけることではありません。可能性に、その式におけるモデルの分布が含まれますが、ここで類似点が終了します。尤度関数は、パラメーター値を入力として受け取り、モデル分布がその持っているとすると、データセット全体の「可能性」を示します。モデル分布はに依存しますが、関数として、値を入力として受け取り、その分布からのランダムサンプルがどのくらいの頻度で等しくなるかを示しますθ θ F θY θ Y Y L θ F θY L(θ)θθfθ(y)θyy。の最大値とモードは同じではありません。L(θ)fθ(y)

多分それは可能性の公式を見るのに役立ちます。IIDデータ場合、 ますの値はすべて固定です-それらは値ですあなたのデータから。最尤は、を最大化するを見つけることです。分布のモードを見つけることは、を最大化するを見つけることです。これは、私たちが望むことではありませんは、変数ではなく、尤度に固定されています。y1,y2,,yn

L(θ)=i=1nfθ(yi)
yiθL(θ)yfθ(y)y

したがって、尤度関数の最大値を見つけることは、一般に、モデル分布のモードを見つけることと同じではありません。(客観的なベイジアンに尋ねると、これは別の分布のモードですが、それはまったく別の話です!)


14

ここで議論すべきことが2つあります。

  • glm が条件付き分布の平均として予測を試み、そのパラメーターを最尤法で推定するという事実は一貫しています。yβ
  • 最尤法によるパラメーターの推定は、分布のモードを決定しません。少なくとも、glmの古典的な定式化ではそうではありません。

実例として、最も単純な重要なglmをロジスティックモデルとしてみましょう。ロジスティック回帰では、値0、1の応答があります。はデータを条件としてベルヌーイ分布であると仮定しますyy

yXBernoulli(p(X))

そして、線形関数にリンクすることにより、この条件付き分布の平均(この場合は単に)を推定しようとします。pX

log(p1p)=Xβ

一時停止と反映して、我々はあることをこのケースで見る自然知りたいしである、 平均条件付き分布のを。p

glmセットアップでは、は直接推定されません。推定手順が対象とするのはです。取得するには、最尤法を使用します。観測されたの値と特定のパラメーターセット与えられた場合、条件付きベルヌーイ分布からデータポイントを観測する確率は、pββyXβ

P(yX,β)=py(1p)1y

ここで、はリンク関係を介したと関数です。pβX

ここでは、ベータではなく、確率分布からサンプリングされたのがであることに注意してください。y

最尤法を適用するには、と両方を固定して観測したものと見なして、これを関数に入れ替えます。βXy

L(β)=py(1p)1y

しかし、は密度関数ではなく、可能性です。尤度を最大化すると、モード化する分布がないため、分布のモードを推定しませんL

パラメータ事前分布を提供し、ベイズの規則を使用することにより、から 密度を生成できますが、従来のglm公式では、これは行われません。Lβ


4

すべてのコメントと回答をありがとう。それらのどれも私の質問への100%の答えではありませんが、それらのすべては私が明白な矛盾を見通すのを助けました。したがって、私は答えを自分で作成することにしました。これは、コメントと回答に含まれるすべてのアイデアの要約だと思います。

GLM のデータPDFを介した尤度の最大化は、2つの理由により、のモード(ただしその平均値)と関係ありませんf(y;θ,ϕ)f

  1. あなたが最大化するとあなたはいない考慮の関数として、しかし、の関数として(線形モデルのパラメータ)。より具体的には、を決定するために導く方程式系を得るためにを微分するとき、に関してそれをしません。に関してそれを行います。したがって、最大化プロセスにより、を最大化するが得られます。最適なであり、最適なはないF Y β F β Y β β F β Yf(y;θ,ϕ)fyβfβyββfβy (実際にはモードになります)は、最大化プロセスの出力です。

  2. さらに、最大化プロセスでは、平均は関数です。したがって、最大化プロセスを通じて、最適なも取得します。β μμβμ

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.