GLMが信号のモードではなく平均を予測するのはなぜですか?これは、GLMの背後にある基本、つまり最尤法と矛盾していませんか?GLMのモデルパラメーターを解くための方程式は、モデル化された信号の確率分布によって記述される尤度の最大化に基づいています。この確率分布は、平均ではなくモードの最大値です(正規分布は例外です:モードと平均の両方が同じです)。したがって、GLMは信号の平均ではなくモードを予測する必要があります。(この質問の背景については、こちらを参照してください。)
GLMが信号のモードではなく平均を予測するのはなぜですか?これは、GLMの背後にある基本、つまり最尤法と矛盾していませんか?GLMのモデルパラメーターを解くための方程式は、モデル化された信号の確率分布によって記述される尤度の最大化に基づいています。この確率分布は、平均ではなくモードの最大値です(正規分布は例外です:モードと平均の両方が同じです)。したがって、GLMは信号の平均ではなくモードを予測する必要があります。(この質問の背景については、こちらを参照してください。)
回答:
最尤フィッティングの目的は、データに最も適合するいくつかの分布のパラメーターを決定することです。より一般的には、これらのパラメーターが共変量によってどのように変化するかを示します。GLMの場合、いくつかの指数ファミリー分布のパラメーターと、それらがいくつかの共変量関数である方法を決定する必要があります。X
過剰分散指数ファミリーの確率分布の場合、平均は、正規リンク関数を通じて正規指数ファミリーパラメーター関連付けられることが保証されています。一般的な式を決定することもできます。通常、も可逆です。とを単純に設定すると、どの分布を扱っていても、によってとがどのように変化するかについてのモデルが自動的に取得されます。そのモデルはθ θ = G (μ )G G μ = G - 1(θ )θ = X β μ θ X凸最適化により、データに簡単かつ確実に適合します。マットの答えはそれがベルヌーイ分布でどのように機能するかを示していますが、本当の魔法はそれが家族のすべての分布で機能することです。
モードはこれらのプロパティを享受しません。実際、Cliff ABが指摘しているように、モードには分布パラメーターとの全単射関係さえない可能性があるため、モードからの推論は非常に限定されたパワーです。たとえばベルヌーイ分布を考えてみましょう。そのモードは0または1のいずれかであり、モードを知っていることは、確率1であるが1/2より大きいか小さいかを知るだけです。対照的に、平均はが何であるかを正確に示します。p
ここで、質問のいくつかの混乱を明確にするために、尤度は分布と同じ関数ではないため、最大尤度は分布のモードを見つけることではありません。可能性には、その式におけるモデルの分布が含まれますが、ここで類似点が終了します。尤度関数は、パラメーター値を入力として受け取り、モデル分布がその持っているとすると、データセット全体の「可能性」を示します。モデル分布はに依存しますが、関数として、値を入力として受け取り、その分布からのランダムサンプルがどのくらいの頻度で等しくなるかを示しますθ θ F θ(Y )θ Y Y L (θ )F θ(Y )。の最大値とモードは同じではありません。
多分それは可能性の公式を見るのに役立ちます。IIDデータ場合、 ますの値はすべて固定です-それらは値ですあなたのデータから。最尤は、を最大化するを見つけることです。分布のモードを見つけることは、を最大化するを見つけることです。これは、私たちが望むことではありませんは、変数ではなく、尤度に固定されています。
したがって、尤度関数の最大値を見つけることは、一般に、モデル分布のモードを見つけることと同じではありません。(客観的なベイジアンに尋ねると、これは別の分布のモードですが、それはまったく別の話です!)
ここで議論すべきことが2つあります。
実例として、最も単純な重要なglmをロジスティックモデルとしてみましょう。ロジスティック回帰では、値0、1の応答があります。はデータを条件としてベルヌーイ分布であると仮定します
そして、線形関数にリンクすることにより、この条件付き分布の平均(この場合は単に)を推定しようとします。
一時停止と反映して、我々はあることをこのケースで見る自然知りたいしである、 平均条件付き分布のを。
glmセットアップでは、は直接推定されません。推定手順が対象とするのはです。取得するには、最尤法を使用します。観測されたの値と特定のパラメーターセット与えられた場合、条件付きベルヌーイ分布からデータポイントを観測する確率は、
ここで、はリンク関係を介したと関数です。
ここでは、ベータではなく、確率分布からサンプリングされたのがであることに注意してください。
最尤法を適用するには、と両方を固定して観測したものと見なして、これを関数に入れ替えます。
しかし、は密度関数ではなく、可能性です。尤度を最大化すると、モード化する分布がないため、分布のモードを推定しません。
パラメータ事前分布を提供し、ベイズの規則を使用することにより、から 密度を生成できますが、従来のglm公式では、これは行われません。
すべてのコメントと回答をありがとう。それらのどれも私の質問への100%の答えではありませんが、それらのすべては私が明白な矛盾を見通すのを助けました。したがって、私は答えを自分で作成することにしました。これは、コメントと回答に含まれるすべてのアイデアの要約だと思います。
GLM のデータPDFを介した尤度の最大化は、2つの理由により、のモード(ただしその平均値)とは関係ありません。
あなたが最大化するとあなたはいない考慮の関数として、しかし、の関数として(線形モデルのパラメータ)。より具体的には、を決定するために導く方程式系を得るためにを微分するとき、に関してそれをしません。に関してそれを行います。したがって、最大化プロセスにより、を最大化するが得られます。最適なであり、最適なはないF Y β F β Y β β F β Y (実際にはモードになります)は、最大化プロセスの出力です。
さらに、最大化プロセスでは、平均は関数です。したがって、最大化プロセスを通じて、最適なも取得します。β μ