GAMとGLMを使用する場合


13

これは潜在的に広範な質問かもしれませんが、GLM(一般化線形モデル)よりもGAM(一般化加算モデル)の使用を示す一般化可能な仮定があるかどうか疑問に思っていましたか?

最近、誰かがデータ構造を「加算的」であると仮定した場合にのみGAMを使用すべきだと教えてくれました。つまり、xを追加してyを予測すると予想しています。別の人は、GAMはGLMとは異なるタイプの回帰分析を行い、直線性を仮定できる場合はGLMが好ましいと指摘しました。

過去に、生態学的データにGAMを使用してきました。たとえば:

  • 連続時系列
  • データが線形形状を持たなかったとき
  • yを予測するために複数のxがあり、「表面プロット」と統計テストを使用して視覚化できる非線形相互作用があると考えました

私は明らかに、GAMがGLMとどのように異なるのかをよく理解していません。私はそれが有効な統計的テストであると信じています(少なくとも生態系ジャーナルではGAMの使用が増加していると思います)が、その使用が他の回帰分析よりも示されている場合、よりよく知る必要があります。


GAMは、線形予測変数がいくつかの予測変数の未知の滑らかな関数に線形に依存する場合に使用されます。
user2974951

1
GLMのスプラインなどによって数値の共変数を表すことができるため、区別はぼやけています。
マイケルM

3
区別はぼやけていますが、glmの厳密な加法性は必要ないので、gamは相互作用も表現できます。大きな違いは推論にあります:推定は投影ではなく平滑化によって行われるため、gamには特別な方法が必要です。それが実際に意味することは、私にはわかりません。
kjetil bハルヴォルセン

回答:


13

主な違いは、線形または一般化線形の「古典的な」形式では、従属変数と共変量の間の関係の固定線形またはその他のパラメトリック形式を想定しますが、GAMはこの特定の形式を事前に想定しないことです関係、および従属変数の共変量の非線形効果を明らかにし、推定するために使用できます。より詳細には、(一般)線形モデルに線形予測器はの加重和であるn共変量、i=1nβixi、この用語は、平滑関数の和、例えば、に置き換えられGAMSにi=1nj=1qβisj(xi)、ここでs1sqは滑らかな基底関数(たとえば3次スプライン)およびq基本次元です。基底関数を組み合わせることにより、GAMは多数の機能的関係を表すことができます(そうするためには、真の関係は波状ではなく滑らかであるという仮定に依存しています)。これらは本質的にGLMの拡張ですが、数値共変量の非線形効果を明らかにするのに特に役立つように設計されており、「自動」方式でそれを行うのに役立ちます(HastieおよびTibshiraniのオリジナル記事から、完全に自動化されていることの利点。つまり、統計学者の側では「探偵」の仕事は必要ありません


2
さて、しかし、コメントで述べたように、それはすべてglmでも可能です...主な違いは実用的だと思います。でR実装mgcvあなたが行うことができないものの多くはありませんglm...が、また、その枠組みの中で行われている可能性が
HalvorsenのはKjetil B

はい、GAMはGLMの拡張機能です。しかし、質問は、いつGAMを使用し、いつGLMを使用するかに関するものであり、opは「古典的な」形式のGLMを意味し、通常は予測子としての基底関数のセットを含まず、明らかに/近似の未知の非線形関係。
マッテオ

ありがとう-これは役に立ちます。はい、私は古典的なGLMS話していた
mluerig

@ matteoあと2つだけ:i)「本当の関係は波状ではなく、滑らかになる可能性が高い」とはどういう意味ですか?およびii)「数値共変量の非線形効果を明らかにするのに特に役立つ」-非線形性をどのように記述/定量化するmgcvか(例:)?
mluerig

実際の関係は実際には滑らかではない場合がありますが、GAMは通常、尤度最大化のプロセス中に「ウィグリグリネス」ペナルティを追加することでモデルの複雑さを制御します(通常、推定関数の2次導関数の積分平方の割合として実装されます)。数値共変量の非線形効果は、従属変数に対する特定の数値変数の影響が、たとえば変数値で単調に増加/減少するのではなく、局所的な最大値、最小値、変曲点などの未知の形状を持つことを意味します。 ..
マッテオ

12

GAMはGLMよりもはるかに柔軟であるため、その使用にはさらに注意が必要であることを強調します。より大きな力には、より大きな責任が伴います。

生態学でのそれらの使用について言及していますが、私もそれに気づきました。私はコスタリカにいましたが、熱帯雨林でのある種の研究を見ました。そこでは、一部の大学院生がデータをGAMに投入し、ソフトウェアがそう言ったので、そのクレイジーな複雑なスムーザーを受け入れました。GAMとその結果の高次スムーザーを使用したという事実を文書化した脚注を厳密に含めたというユーモラスで見事な事実を除いて、かなり憂鬱でした。

GAMを使用してGAMがどのように機能するかを正確に理解する必要はありませんが、データ、手元の問題、スムーズな注文などのソフトウェアのパラメーターの自動選択、選択(指定するスムーザー、相互作用、スムーザーが正当化される場合など)、結果の妥当性。

たくさんのプロットを行い、平滑化曲線を見てください。データの少ない地域で夢中になりますか?低次のスムーザーを指定した場合、またはスムージングを完全に削除した場合はどうなりますか?次数7はその変数に対してより滑らかに現実的ですか?それは選択を相互検証しているという保証にもかかわらず過適合ですか?十分なデータがありますか?高品質ですか、ノイズが多いですか?

私はGAMSが好きで、データの調査については過小評価されていると思います。それらは非常に柔軟性があり、厳密に科学することを許せば、GLMのような単純なモデルよりも統計の荒野にあなたを連れて行きます。


私はほとんどの場合、それらの大学院生がやったことをしていると思います:私のデータをゲームに投げ込み、私のデータをどれだけうまくmgcv処理することに驚かされます。私は自分のパラメーターをpar約しようとし、予測値が私のデータとどれだけ一致するかをチェックします。あなたのコメントはもう少し厳密であることを思い出させてくれます-そして最終的にはサイモンの森の本を手に入れるかもしれません!
mluerig

さて、スムーザーを使用して変数を探索し、自由度を低い値に固定するか、スムーザーを削除して、たとえばスムーザーが基本的に2次の場合は2乗項を使用するまで進みます。たとえば、二次式は年齢効果に意味があります。
ウェイン

@ウェイン、私はGAMに関連したデータ探索に関する答えを求めてここに来て、あなたがそれを指摘したのを見ました。データ探索にGAMをどのように使用しますか?そして、GAMが必要かどうか、またはGLMで十分かどうかをどのように判断しますか。単純なGAMを実行して応答と潜在的な各予測子を順番に実行し、プロットし、関係がGAM(つまり、非線形および非単調な関係)を保証するかどうかを単純に実行するのは理にかなっていますか?
ティレン

5

コメントを追加するだけの評判はありません。私はウェインのコメントに完全に同意します:より大きな力にはより大きな責任が伴います。GAMは非常に柔軟であり、クレイジーコンプレックススムーザーを取得/表示することがよくあります。次に、滑らかな関数の自由度(ノットの数)を制限し、異なるモデル構造(相互作用/相互作用なしなど)をテストすることを強くお勧めします。

GAMは、モデル駆動型アプローチ(境界はあいまいですが、そのグループにGLMを含めます)とデータ駆動型アプローチ(たとえば、完全に相互作用する非線形変数の効果を想定する人工ニューラルネットワークまたはランダムフォレスト)の間に考慮することができます したがって、GAMにはまだ探偵の仕事が必要なので、私はHastieとTibshiraniに完全に同意しません(誰も私を殺そうとしないことを願っています)。

生態学的な観点から、これらの信頼性の低い変数crazy-complex smoothersを避けるために、Rパッケージ詐欺を使用することをお勧めします。Natalya PyaとSimon Woodによって開発され、双方向の相互作用であっても、滑らかな曲線を目的の形状(たとえば、単峰性または単調)に制約することができます。GLMは、滑らかな関数の形状を制約した後、マイナーな選択肢になると思いますが、これは私の個人的な意見です。

Pya、N.、Wood、SN、2015。形状制約付き加算モデル。統計 計算します。25(3)、543–559。10.1007 / s11222-013-9448-7

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.