Tweedieを使用するGLMが与えられた場合、どのようにして係数を見つけるのですか?


7

しましょう Y パラメータのTweedie分布に従う確率変数である α=1.1。リンク関数を自然対数とします。フォームの数のデータベースがあると仮定します

(y1,x1,1,x1,2,...,x1,m)

(y2,x2,1,x2,2,...,x2,m)

...

(yn,xn,1,xn,2,...,xn,m)

変数は、カテゴリー変数と連続変数の混合です。これはGLMであるため、

E[Y]=eXβ。だからここに私の質問があります:数値のデータベースを与えられ、これが特定のパラメーターを持つトゥイーディー分布であるという事実を使用して、どのアルゴリズムを使用して最良の選択をするかβ?最小化する必要があるエラー関数はありますか、または最尤のパラメーターを推定しますか?


1
最尤は正しいです。en.wikipedia.org/wiki/…を参照してください。
アメーバ

1
GLMを使用してMLで適合させることができます。GLMに適切な機能を提供する必要があるだけです。これらはで利用できますstatmod(さらにtweedie、Rなどのパッケージには、などの便利な関数がいくつかありますAICtweedie)。glmを十分に駆使する方法を知っていれば、これらなしで管理できますが、パッケージを使用することをお勧めします。
Glen_b-モニカを2017

回答:


11

Rの一般化線形モデルに精通していますか?その場合は、他のGLMと同じようにTweedie GLMを取り付けることができます。これを実現するために必要なglmファミリの定義は、CRANのstatmod Rパッケージによって提供されます。

Tweedie glmsは、分散関数がべき関数であると仮定しています:

var(y)=V(μ)ϕ=μαϕ
特殊なケースには通常のGLM(α=0)、ポアソンglms α=1)、ガンマglms(α=2)および逆ガウスglms(α=3)。

Rコードの例を次に示します。

> library(statmod)
> y <- c(4.0,5.9,3.9,13.2,10.0,9.0)
> x <- 1:6
> fit <- glm(y~x, family=tweedie(var.power=1.1, link.power=0))
> summary(fit)

Call:
glm(formula = y ~ x, family = tweedie(var.power = 1.1, link.power = 0))

Deviance Residuals: 
      1        2        3        4        5        6  
-0.2966   0.1183  -1.0742   1.4985   0.1205  -0.6716  

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)   1.3625     0.4336   3.143   0.0348 *
x             0.1794     0.1008   1.779   0.1498  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for Tweedie family taken to be 1.056557)

    Null deviance: 7.3459  on 5  degrees of freedom
Residual deviance: 3.9670  on 4  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 4

Tweedieパッケージを使用すると、GLMを任意の電源機能および任意の電源リンクに適合させることができます。glmファミリコールでは、var.powerがα var.power = 1.1が指定するパラメーター α=1.1。var.powerはglm分散関数の指数を参照するため、var.power = 0は通常のファミリーを指定し、var.power = 1はポアソンファミリーを意味し、var.power = 2はガンマファミリーを意味し、var.power = 3は逆を意味しますガウス家族など。0と1の間の値は許可されていませんが、事実上他の何も許可されています。

link.power = 0はログリンクを指定します。リンクはBox-Cox変換力で指定されるため、link.power = 1はIDリンクであり、link.power = 0はログを意味します。

上記のモデルは、 yiTweedieα(μi,ϕ) どこ

logμi=β0+β1xi
そして
var(yi)=μi1.1ϕ

回帰係数 βj最尤法で推定されています。分散パラメーターϕ 二乗残差の残差合計を使用して推定されています-これはピアソン推定量と呼ばれます。

何に関係なく α 使用するリンク、またはglmsのRで提供されるダウンストリーム関数は、glm()によって生成されたglm適合モデルオブジェクトで機能します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.