ゼロで凝集する非負データのモデル（Tweedie GLM、ゼロで膨張したGLMなど）は正確なゼロを予測できますか？

Tweedie分布は、パラメーター（平均分散関係の指数）が1〜2の場合、点質量がゼロの歪んだデータをモデル化できます。 $p$

同様に、ゼロで膨らんだ（そうでなければ連続的または離散的）モデルは、多数のゼロを持つ場合があります。

これらの種類のモデルを使用して予測または近似値を計算すると、予測値がすべてゼロ以外になるのはなぜなのか理解できません。

これらのモデルは実際に正確なゼロを予測できますか？

例えば

library(tweedie)
library(statmod)
# generate data
y <- rtweedie( 100, xi=1.3, mu=1, phi=1)  # xi=p
x <- y+rnorm( length(y), 0, 0.2)
# estimate p
out <- tweedie.profile( y~1, p.vec=seq(1.1, 1.9, length=9))
# fit glm
fit <- glm( y ~ x, family=tweedie(var.power=out$p.max, link.power=0))
# predict
pred <- predict.glm(fit, newdata=data.frame(x=x), type="response")

pred現在、ゼロは含まれていません。Tweedie分布などのモデルの有用性は、正確なゼロと連続部分を予測する能力にあると考えました。

私の例では、変数xはあまり予測的ではないことを知っています。

— 胞子234
ソース

任意の分布を可能にするセミパラメトリック順序応答モデルも検討してください。

Y

$Y$

— フランクハレル

回答:

GLMの予測値は平均値であることに注意してください。

以下のために任意の非負値の分布、予測することは平均 0のを、その分布は0で完全にスパイクでなければならないであろう。

ただし、ログリンクでは、平均が正確にゼロになることはありません（がに移動する必要があるため）。 $\eta$ $-\infty$

したがって、あなたの問題はTweedieの問題ではなく、はるかに一般的なものです。たとえば、ポアソン（ゼロ膨張または通常のポアソンGLM）とまったく同じ問題が発生します。

Tweedie分布の有用性は、正確なゼロと連続部分を予測できることにあると思いました。

対数リンクを使用した負でない値の分布については、正確なゼロの予測は行われないため、これについてのあなたの考えは間違っているに違いありません。

その魅力の1つは、平均予測が0になることではなく、データの正確なゼロをモデル化できることです。 [もちろん、平均が0を超えていなければならない場合でも、非ゼロ平均の近似分布は正確にゼロになる可能性があります。適切な予測間隔には、たとえば0を含めることができます。]

当てはめられた分布が実質的な割合のゼロを含むことはまったく重要ではありません-それは当てはめられた平均をゼロにしません。

リンク関数をIDリンクと言うように変更した場合、実際には問題が解決しないことに注意してください。すべてゼロではない非負のランダム変数の平均は正になります。

— Glen_b -Reinstate Monica
ソース

ご説明ありがとうございます。tweedie glmとgamma glmを比較しましたが、データに含まれるゼロの数に関係なく、ベータはほぼ同じです（gamma glmのゼロを非常に小さな値に変更します）。そして、ゼロと連続部分を同時に予測するために提案されている方法は何ですか。

— 胞子234

@ spore234 0/1を予測する二項ハードルと非ゼロデータに適合したガンマモデルを持つ、独自のガンマハードルモデルを展開できます。以下に、このモデルとRに手動で適合させる方法について説明しているブログ投稿へのリンクを示します。余談ですが、何かが連続している場合、それが正確にゼロであることをどうやって知るのですか？あなたの測定装置は、このようなきめ細かい測定が可能ですか？

— モニカの復職-G.シンプソン

@spore、あなたは本当に「ゼロを予測する」という意味をもっと明確にしなければなりません。私の答えは、Tweedieを置き換えるために使用される他の分布モデルがゼロの平均予測を与えない理由をすでに確立しています（NBゼロ膨張モデルとハードルモデルも平均予測と同じ問題を抱えています）。平均予測は、GLMを使用したときに「予測」が意味するものであると仮定すると、それはどういう意味ですか？0膨張モデルまたはハードルモデルが意味をなすものを意味するように変更すると、Tweedieも同じ条件を満たす可能性があります。

— Glen_b-モニカ

「予測」の意味に本当に依存します（「平均を予測する」という意味ではないため、求めていることを言う必要があります- ゼロの確率を予測しますか？予測の中央値？他の何か？）、およびあなたが「より良い」とみなすものは何ですか。

— Glen_b-モニカを

@ spore234問題は、やはり「予測」という言葉を使用しているのに、「予測」の意味を定義できないことです（私は尋ね続けます！）。あなたは、あなたが何を言って必要があるので、このような状況での用語の最も明白な解釈の両方を除外しているように見えるん平均。「この人の費用がいくらになるかを予測する」と言うとき、実際にはどういう意味ですか？各人の正確なコストを取得することはできないことに注意してください...だから、この「予測」はどのような特性を持つべきでしょうか？

— Glen_b -Reinstateモニカ

ゼロの割合の予測

私はstatmodパッケージの作成者であり、tweedieパッケージの共同作成者です。例のすべてが正しく機能しています。コードは、データに含まれる可能性のあるゼロを正しく考慮しています。

Glen_bとTimが説明したように、ゼロの確率が100％でない限り、予測平均値は正確にゼロになることはありません。興味深いのはゼロの予測割合であり、これは以下に示すようにモデルの適合から簡単に抽出できます。

より賢明な作業例を次に示します。最初にいくつかのデータをシミュレートします。

> library(statmod)
> library(tweedie)
> x <- 1:100
> mutrue <- exp(-1+x/25)
> summary(mutrue)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.3829  1.0306  2.7737  5.0287  7.4644 20.0855 
> y <- rtweedie(100, mu=mutrue, phi=1, power=1.3)
> summary(y)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.0000  0.8482  2.9249  4.7164  6.1522 24.3897 
> sum(y==0)
[1] 12

データには12個のゼロが含まれています。

次に、Tweedie glmを適合させます。

> fit <- glm(y ~ x, family=tweedie(var.power=1.3, link.power=0))
> summary(fit)

Call:
glm(formula = y ~ x, family = tweedie(var.power = 1.3, link.power = 0))

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-2.71253  -0.94685  -0.07556   0.69089   1.84013  

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.816784   0.168764   -4.84 4.84e-06 ***
x            0.036748   0.002275   16.15  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for Tweedie family taken to be 0.8578628)

    Null deviance: 363.26  on 99  degrees of freedom
Residual deviance: 103.70  on 98  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 4

もちろん、の回帰は非常に重要です。分散の推定値 0.85786です。 $x$ $\phi$

$x$

> Phi <- 0.85786
> Mu <- fitted(fit)
> Power <- 1.3
> Prob.Zero <- exp(-Mu^(2-Power) / Phi / (2-Power))
> Prob.Zero[1:5]
        1         2         3         4         5 
0.3811336 0.3716732 0.3622103 0.3527512 0.3433024 
> Prob.Zero[96:100]
          96           97           98           99          100 
1.498569e-05 1.121936e-05 8.336499e-06 6.146648e-06 4.496188e-06

そのため、ゼロの予測割合は、最小平均値での38.1％から最大平均値での4.5e-6まで変化します。

厳密なゼロの確率の公式は、Dunn＆Smyth（2001）Tweedie Family Densities：Methods of EvaluationまたはDunn＆Smyth（2005）Series Evaluation of Tweedie exponentialdispersion densityにあります。

— ゴードン・スミス
ソース

ありがとう、便利！これらの正確なゼロの確率の信頼区間を計算する方法に関する提案はありますか？それはまったく理にかなっていますか？2005年の論文から「95％の可能性のある領域」を定義する方法にも困惑しています。参考文献を大いに感謝します

— -irintch3

この答えは、予測ゼロ膨張回帰モデルについて尋ねる別のスレッドからマージされましたが、Tweedie GLMモデルにも適用されます。

$f$ $f$

f_{zeroinfl} （ y ） = π 私_{{0}} （ y ） + （ 1 - π ） f （ y ）

$f_\text{zeroinfl}(y) = \pi \,I_{\{0\}}(y) + (1-\pi)\, f(y)$

$I$ $f_\text{zeroinfl}(y)$

μ_{私} = π \cdot 0 + （ 1 - π ） g^{- 1} （ {バツ}_{私}^{'} β ）

$\mu_i = \pi \cdot 0 + (1-\pi)\, g^{-1}(x_i'\beta)$

$g^{-1}$

$Y$ $X$ $Y$ $X$ $Y$ $X$ $E(Y|X)$

— ティム
ソース

ティム、これは本当に素晴らしい答えであり、私はクローズアンドマージのタイミングで申し訳ありません。質問についてさらに標準的なものにしたり、より適切なものにしたり（おそらくあなたが答えたものの一部を組み込んだり）修正したい質問については、先に進んでください。さもなければ、喜んでそれを行います。

— Glen_b -Reinstateモニカ