ガンマGLMを使用する場合


88

ガンマ分布はかなり広い範囲の形状をとることができ、その2つのパラメーターを介した平均と分散の間のリンクを考えると、非負データの不均一分散に対処するのに適しているようです。 WLSまたは何らかの不均一分散一貫性のあるVCV推定器を使用しないでください。

日常的な非負のデータモデリングにもっと使用しますが、それを使用する人は誰も知りません。正式な教室で学んだことはなく、読んだ文献では決して使用していません。「ガンマGLMの実際的な使用」のようなものをGoogleで検索するたびに、ポアソンイベント間の待機時間に使用するようにアドバイスします。OK。しかし、それは制限的なようであり、その唯一の使用法ではありません。

単純に言えば、ガンマGLMは、ガンマの柔軟性を考慮すると、非負データをモデル化するための比較的仮定の軽い手段のようです。もちろん、他のモデルと同様にQQプロットと残差プロットを確認する必要があります。しかし、私が見逃している深刻な欠点はありますか?「単にOLSを実行する」人々へのコミュニケーションを超えて?

回答:


57

ガンマには、対数法線によって共有されるプロパティがあります。つまり、スケールパラメーターを変更しながら形状パラメーターを一定に保持すると(モデルのいずれかを使用する場合に通常行われるように)、分散は平均二乗(一定の変動係数)に比例します。

これに近いものは、金融データ、または実際、他の多くの種類のデータでかなり頻繁に発生します。

結果として、連続、正、右スキューで、対数スケールで分散がほぼ一定であるデータに適していることがよくありますが、他にもよく知られている(そしてかなり容易に入手できる)選択肢がいくつかありますプロパティ。

さらに、ログリンクをガンマGLMに合わせるのが一般的です(自然リンクを使用するのは比較的まれです)。通常の線形モデルをデータのログに当てはめることとわずかに異なるのは、ログスケールではガンマがさまざまな角度に歪んでいるのに対して、標準(対​​数正規のログ)が対称であるということです。これにより、さまざまな状況で(ガンマ)が便利になります。

de Gong &Heller and Freesで(実際のデータ例を使用して)議論されたガンマGLMの実用的な使用例と、多数の論文を見てきました。他の分野でもアプリケーションを見てきました。ああ、私が正しいことを覚えていれば、VenablesとRipleyのMASSは学校の欠勤でそれを使用します(馬のデータ;編集:MASSの統計補完に実際にあることがわかります、p11、pdfの14ページを参照してください、ログリンクがありますがDVの小さなシフトがあります)。ええと、マッカラーとネルダーは血液凝固の例を行いましたが、おそらく自然なつながりだったかもしれません。

それから、彼が自動車保険の例と半導体製造データの例をしたFarawayの本があります。

2つのオプションのいずれかを選択することには、いくつかの利点と欠点があります。最近はどちらも簡単に収まります。一般に、最適なものを選択する問題です。

唯一の選択肢からはほど遠い。たとえば、逆ガウスGLMもあります。これは、ガンマまたは対数正規のいずれよりも、スキュー/ヘビーテール(さらにヘテロスケスチック)が大きくなります。

欠点については、予測間隔を行うのが難しくなります。一部の診断ディスプレイは解釈が困難です。線形予測子のスケール(一般に対数スケール)で期待値を計算することは、同等の対数正規モデルの場合よりも困難です。仮説検定と間隔は一般に漸近的です。これらは多くの場合、比較的小さな問題です。

これは、ログリンク対数正規回帰(ログを取得して通常の線形回帰モデルに適合させる)よりもいくつかの利点があります。1つは、平均予測が簡単だということです。


3
「ガンマ」または「ガンマ」である必要がありますか?私たちはそれが人にちなんで名付けられていないことを知っています。小文字の「g」を頻繁に見ました。明らかに、分布は18世紀にさかのぼる関数の名前が付けられています。
ニックコックス

2
Γ

@NickCox私はあなたが提案するようにそれを変更しました、そして私は私がそれにいた間に「逆ガウス」を修正しました。
Glen_b

1
@Gleb_b:逆リンクガウスファミリでログリンクを使用していますか?
Dimitriy V. Masterov

@ DimitriyV.Masterovあまり使用されないため、一般化するのが難しくなります。私が見たものから、逆ガウスでログリンクを使用することはかなり一般的ですが、逆リンクなど、状況によっては他のリンクが適している場合があります。
Glen_b

28

それは良い質問です。実際、なぜ一般化線形モデル(GLM)をもっと使わないのかというのも良い質問です。

警告注:一部の人々は、GLMを一般的な線形モデルに使用しますが、ここで念頭に置いていることはありません。

  • あなたがどこを見ているかに依存します。たとえば、ガンマ分布は、数十年にわたっていくつかの環境科学で人気があり、予測変数を使用したモデリングも自然な拡張です。私が迷ったいくつかの分野を挙げると、水文学と地形学には多くの例があります。

  • 最適な場合はいつでも空の答えを超えて使用するのは非常に難しいです。歪んだ正のデータを考えると、ガンマモデルと対数正規モデル(GLMコンテキストログリンク、正規またはガウスファミリ)を試して、どちらがより適切かを選択することがよくあります。

  • ガンマモデリングはごく最近まで非常に困難なままでした。確かに、ログを取得して線形回帰を適用する場合と比較して、多くのコードを記述せずに。今でも、すべての主要な統計ソフトウェア環境で同じように簡単ではないと思います。

  • 長所と短所にもかかわらず、何が使用され、何が使用されないかを説明する際に、あなたは常にあなたが識別する種類の要因に正確に到達すると思います:教えられていること、人々が読んでいる文献にあること、人々が話していること仕事や会議で。だから、あなたは説明するために科学の一種のアマチュア社会学が必要です。ほとんどの人は、自分の分野でまっすぐで狭い道をたどっているようです。大まかに言えば、モデリング技術に関するあらゆる分野の内部文献が大きくなればなるほど、その分野の人々は別のことを試そうとするようになります。


1
どちらがうまく機能するかをどのように判断しますか?
Dimitriy V. Masterov

7
尤度、R二乗(人々の意見にもかかわらず)、パラメーター推定の信頼区間、観測値と適合、残差と適合などのプロットを調べます。私の経験では、科学はあまりよくできていません。他にどのようにそれを行うことができますか?
ニックコックス

@NickCox観測された分析対適合、残差対適合、および通常のqqプロットの際に注意すべきことは何ですか?これはモデルによって異なる可能性があることを理解しています。ガンマ、ポアソン、負の二項分布の例を挙げていただけますか?ありがとう

@tatamiそれはまったく新しい質問、またはそれ以上だと思います。あなたがそれを尋ねると、誰が噛むかがわかります。ガンマモデルと負の二項モデルがどのプロジェクトでもライバルだとは思っていませんでしたが、それは想像力や経験の失敗かもしれません。
ニックコックス

13

ガンマ回帰はGLMにあるため、逸脱の残差、レバレッジ、クックの距離など、診断目的で多くの有用な量を取得できます。これらは、ログ変換されたデータの対応する量ほど優れていません。

対数正規分布と比較してガンマ回帰が回避することの1つは、変換バイアスです。Jensenの不等式は、変換された期待値ではなく変換されたデータをモデル化しているため、対数正規回帰からの予測が体系的にバイアスされることを意味します。

また、ガンマ回帰(または非負データの他のモデル)は、ガンマにある指数分布のように0のモードを持つことができるため、対数正規分布よりも幅広いデータの配列に対処できます。家族、これは対数正規分布では不可能です。

ポアソン尤度を準尤度として使用する方が安定しているという提案を読みました。それらはお互いの共役です。準ポアソンには、正確な0の値に対応できるという大きな利点もあります。これは、ガンマと、特に対数正規の両方の問題を引き起こします。


11

私の意見では、誤差はガンマ分布のファミリーにあり、同じ形状で、関連する式に従ってスケールが変化すると仮定しています。

しかし、モデル診断を行うことは困難です。ここで、単純なQQプロットは、ほぼ同じ分布であるため、ここでは適していませんが、我々の分布は異なる分散を持つ分布のファミリーです。

単純に、残差プロットを使用して、スケールが異なるが形状が同じで、通常は長いテールがあることを確認できます。

私の経験では、ガンマGLMはいくつかのロングテール分散問題で試され、保険や環境分野などで広く使用されています。逆ガウス分布など、同じ問題を持つ他の家族分布を使用することを主張します。実際には、そのような選択は産業経験の専門家の判断に依存するようです。これにより、ガンマGLMの使用が制限されます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.