アイデンティティリンク機能はガンマファミリーのドメインを尊重していませんか?


9

アイデンティティリンクでガンマ一般化線形モデル(GLM)を使用しています。独立変数は、特定のグループの報酬です。

Pythonのstatsmodelsの概要で、IDリンク関数に関する警告("DomainWarning:IDリンク関数はガンマファミリのドメインを考慮していません。")がわかりません。背景:統計学における基本的な正式な教育のみであり、ロジスティック回帰を超えるGLMの経験はほとんどありません。

関連するPythonコードは次のとおりです。

model=statsmodels.genmod.generalized_linear_model.GLM(target, reducedFeatures, family=sm.families.Gamma(link=sm.families.links.identity)) results=model.fit() print(results.summary())

出力は次のとおりです。 ここに画像の説明を入力してください

私の質問はこれです:アイデンティティリンクはどのようにしてガンマファミリのドメインを尊重しませんか?ガンマファミリーのドメインは0から無限大ですか?また、IDリンクはほとんど何も実行していない、つまり独立変数をそのまま維持し、それらを従属変数との関係を変換しないという印象も受けました。うやうやしいリンク機能のように聞こえます;)

修正してください


アイデンティティリンクは、従属変数の期待値が、線形回帰モデルのように、単なる線形予測子であることを意味します。期待値を正に保つものは何もありません。予測子の値によっては、期待値がゼロまたは負になる場合があります。したがって、「アイデンティティリンク関数はガンマファミリのドメインを尊重しません」。
Laconic

回答:


8

ガンマGLMモデルは次のとおりです。

yXGamma(μ=f(Xβ),ϕ)

ここで、は期待パラメーター、は分散パラメーター(分散パラメーターは標準のGLMフレームワークでは推定されません)、は線形予測子、はモデルによって学習されたパラメーター、はリンク機能と呼ばれる。 μϕXββf

は任意の実数値をとることができますが、はガンマ分布の期待値をモデル化していることに注意してください。これは正の実数なければなりません。これはPythonが伝えていることです。恒等関数はを正の実数にマップすることが保証されていないため、常に有効な平均パラメーターになるとは限りません。Xβf(Xβ)Xβ

涼しい。ありがとうございました!私の独立変数はすべて正の実数なので、行ってもいいですよね?

必ずしもそうとは限りませんが、推定係数の1つが負である可能性があります(切片は非常に負です)。

どういう意味か、もう少し詳しく説明してもらえませんか?切片の符号が係数に影響を与えるのはなぜですか?それは私には意味がありません。

条件付きガンマ分布の平均パラメーターに影響を与えます。モデルの構造方程式は次のとおりです。

μ=f(Xβ)

そして、正でなければなりません。予測変数のすべての値がゼロであることは有効であると仮定します(私はあなたの機能のコンテキストがないため、これがデータに当てはまるかどうかはわかりません)。次に、このデータポイントの予測は次のようになります。μ

μ(x)=f((1,0,0,,0)β)=f(Intercept)

IDリンク機能を使用している場合、これは

μ(x)=Intercept

これは切片が負の場合、無効な値です。μ

繰り返しになりますが、データのコンテキスト上の制約により、この状況は回避できますが、数学的には可能です。


涼しい。ありがとうございました!私の独立変数はすべて正の実数なので、行ってもいいですよね?
kalidurge

必ずしもそうとは限りませんが、推定係数の1つが負である可能性があります(切片は非常に負です)。
Matthew Drury

どういう意味か、もう少し詳しく説明してもらえませんか?切片の符号が係数に影響を与えるのはなぜですか?それは私には意味がありません。
kalidurge

@kalidurge私はあなたのフォローアップの回答で編集しました。
Matthew Drury

本当に役に立ちました。とても感謝しています!
kalidurge

1

1年以上前にこの質問を投稿して以来、一般化線形モデルのクラスを受講し、多くのことを学びました。この投稿はいくぶん頻繁に閲覧されるので、そのときのガイダンスを追加したいと思いました。

ガンマモデルで考慮するリンク関数:

  • ログ-すべての予測値が正であることを確認することにより、予測/出力を「ドメインを尊重する」ように強制します
  • 逆数-値を強制的にドメインを尊重しませんが、多くの場合うまく機能します。(これは、ガンマモデルの標準形の自然なパラメーターであるために使用されます。)これは、Rの既定のリンク関数です。

原則として、IDリンク機能は使用しないでください。

そうは言っても、ほとんどの状況でガンマモデルの使用は可能であり、避けるべきです。大きなスキューのあるデータがある場合は、ターゲット変数を変換し、標準の線形回帰モデルを実行します。結果は一般に理解しやすく、同じかそれ以上になります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.