GLMのモデル平均化のために、リンクまたは応答スケールで予測を平均しますか?


12

GLMの応答スケールでモデル平均予測を計算するには、「正しい」のはなぜですか?

  1. リンクスケールでモデル平均予測を計算し、応答スケールに逆変換するか、または
  2. 予測を応答スケールに逆変換し、モデルの平均を計算します

モデルがGLMの場合、予測は近いものの等しくありません。異なるRパッケージは、両方にオプションを提供します(デフォルトは異なります)。何人かの同僚は、「誰もが#2をしている」ため#1が間違っていると大声で主張しています。私の直感では、#1はすべての線形数学を線形に保つため「#1」が正しいと言います(#2は線形スケールではないものを平均します)。単純なシミュレーションでは、#2のMSEが#1よりも非常に(非常に)わずかに小さいことがわかります。#2が正しい場合、その理由は何ですか?そして、もし#2が正しいなら、なぜ私の理由(線形の数学を線形に保つ)が不十分な推論であるのですか?

編集1:GLMの別の要因のレベルに対する限界平均の計算は、私が上で尋ねている質問と同様の問題です。Russell Lenthは#1(emmeansパッケージ内)の「タイミング」(彼の言葉)を使用してGLMモデルの周辺平均を計算し、彼の議論は私の直感に似ています。

編集2:モデル平均化を使用して、予測(または係数)が「最適な」ネストされたモデルのすべてまたはサブセットの加重平均として推定されるモデル選択の代替を参照しています(参照およびRパッケージを参照) 。

Mηmmwmm

Y^=g1m=1Mwmηm

上記の#2を使用したモデル平均予測 M

Y^=m=1Mwmg1ηm

モデル平均化のいくつかのベイジアンおよびフリークエンティスト法は次のとおりです。

  • Hoeting、JA、Madigan、D.、AE、Raftery、およびVolinsky、CT、1999年。ベイジアンモデル平均化:チュートリアル。統計科学、pp.382-401。

  • Burnham、KPおよびAnderson、DR、2003。モデル選択とマルチモデル推論:実用的な情報理論的アプローチ。スプリンガーサイエンス&ビジネスメディア。

  • Hansen、BE、2007。最小二乗モデルの平均化。計量経済学、75(4)、pp.1175-1189。

  • Claeskens、G. and Hjort、NL、2008。モデル選択とモデル平均化。ケンブリッジブックス。

Rパッケージには、BMAMuMInBAS、およびAICcmodavgが含まれますます。(注:これは、より一般的なモデル平均化の知恵についての質問ではありません。)


1
あなたの質問に回答がないのは、私のような他の読者があなたの質問を理解していないからだと思います。「モデル平均化」とはどういう意味ですか?あなたが解決しようとしている問題が何かを理解できるように、コンテキストを詳細に説明してください。私が見る限り、emmeansパッケージは異なるモデルからの予測を平均しません。
ゴードンスミス

1
これをお問い合わせいただきありがとうございます。ラッセルレンスのメモを追加すると私の質問が混乱することがわかります。上記を明確にしようとしました。emmeansパッケージは、別の因子のレベルで周辺平均とSEを計算し、これらの統計はリンクスケールで計算され、逆変換されます。「モデルは私たちの最高のガイドです」セクションを参照してください。
JWalker

この質問に対する答えに本当に興味があります。一方、コメント。そのMSE結果は、逆変換されたスケールで計算されます。同じシミュレーション結果でも、リンクスケールで計算した場合、MSEは#2よりも#1の方が小さくなると思います。理由は、サンプルの平均が、誤ったスケールであっても、母平均の最小二乗推定量であるためです。
ラスレンズ

回答:


6

推定器または予測器を組み合わせる最適な方法は、最小化しようとしている損失関数(または最大化しようとしている効用関数)によって異なります。

一般的に、損失関数が応答スケールで予測誤差を測定する場合、応答スケールでの予測子の平均化は正しいです。たとえば、応答スケールで予測の予測二乗誤差を最小化しようとしている場合、事後平均予測子が最適になり、モデルの仮定に応じて、応答スケールでの予測の平均化と同等になる場合があります。

線形予測スケールでの平均化は、離散モデルでは非常にパフォーマンスが低下する可能性があることに注意してください。ロジスティック回帰を使用して、バイナリ応答変数の確率を予測するとします。いずれかのモデルの推定確率がゼロの場合、そのモデルの線形予測子はマイナスの無限大になります。任意の数の有限値で無限大の平均を取ることはまだ無限です。

リストした参考文献を参照しましたか?Hoeting et al(1999)は、損失関数について議論していると思いますが、おそらく詳細ではありません。


1
優秀な。この応答に感謝します(他の人を歓迎します!)。「その後、予測子の平均化は最適またはそれに近い可能性が高い」と応答スケールで予測子を平均化すると仮定します。ロジスティックメモは特に役立ちます。
JWalker

1
@rvl損失関数の線形性に関して、私は損失の影響関数の観点から考えていました。私はそれがちょっと不可解だと思うので、コメントを編集しました。私はあなたの他の発言に反対しなければなりません。GLMは、二乗誤差損失ではなく、MLによって推定されます。名前にもかかわらず、GLMで一般的なIRLSアルゴリズムは平方和を最小化せず、IRLS作業変数はリンクスケールではなく応答スケールで標準化された残差を含みます。いずれの場合でも、推定と予測は同じではなく、同じ損失関数を持つ必要はありません。
ゴードンスミス

@rvl正確なゼロ適合値はロジスティック回帰で頻繁に発生し、このフォーラムで何度か議論されています。
ゴードンスミス

@rvl損失はリンクスケールでは評価されません。この議論は、GLMに関するチュートリアルを提供するのにふさわしい場所ではありません。代わりに、Springerが約1か月で出版するGLMに関する本を参照してください。また、この議論は、元の質問に対する代替的な答えを提供するのに適した場所でもありません。あなたがそれをしたい場合は、適切な答えを書いてください。
ゴードンスミス

GLMに関する本へのリンクは次のとおりです。doi.org
Gordon Smyth
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.