ベータ回帰でロジットリンクを使用する理由

14

最近、私は比率である結果のために、ベータ回帰モデルの実装に興味を持っています。この結果には離散的な「成功」という意味のある概念がないため、この結果は二項の状況に適合しないことに注意してください。実際、結果は実際には期間の比率です。分子は、特定の条件がアクティブであった間の秒数であり、その条件がアクティブである資格があった合計秒数です。私は気まぐれで申し訳ありませんが、このようなプロセスをベータ回帰以外にもさまざまな方法でモデル化できることに気付いているので、この正確なコンテキストにあまり重点を置きたくありません。そのようなモデルを実装しようとする私の試みで生じた質問（もちろん、私は

いずれにせよ、私が見つけることができたすべてのリソースは、ベータ回帰が通常、ロジット（またはプロビット/クロログ）リンクと、ログオッドの変更として解釈されるパラメーターを使用して適合していることを示しています。ただし、このリンクを使用する理由を実際に正当化するためのリファレンスはまだ見つけていません。

元のFerrari＆Cribari-Neto（2004）の論文では正当化されていません。指数パラメータのオッズ比の解釈により、ロジット関数が「特に有用」であることにのみ言及しています。他の情報源は、間隔（0,1）から実際の線にマップすることを望んでいます。しかし、すでにベータ分布を想定している場合、そのようなマッピングにはリンク関数が必ずしも必要ですか？最初にベータ分布を仮定することによって課される制約を超えて、リンク関数はどのような利点を提供しますか？いくつかのクイックシミュレーションを実行しましたが、確率リンクが主に0または1近くに集中しているベータ分布からシミュレーションした場合でも、アイデンティティリンクで（0,1）間隔の外側の予測を確認していませんが、おそらく私のシミュレーションいくつかの病状を捉えるのに十分一般的ではありませんでした。

個人が実際にベータ回帰モデルからのパラメーター推定をどのように解釈するかに基づいて（つまり、オッズ比として）、「成功」のオッズに関して暗黙的に推論しているように思えます。つまり、二項モデルの代わりにベータ回帰を使用しています。ベータ分布と二項分布の間の関係を考えると、これはおそらく一部のコンテキストでは適切ですが、これは一般的なものよりも特別なケースのように思えます。では、この質問、答えは連続割合ではなく、成果に対するオッズ比を解釈するために提供されていますが、使用するのではなく、この方法を試してみて、物事を解釈するために不必要に面倒なことに私には思われる、と言う、ログまたはIDリンクと％変更または単位シフトの解釈。

では、なぜベータ回帰モデルにロジットリンクを使用するのでしょうか。それを二項モデルに関連付けるのは、単に便宜上の問題ですか？

logit beta-regression

— ライアン・シモンズ
ソース

8

リンク関数の正当化：リンク関数、すべての適合値あり、常にでは。これは、一部のアプリケーションではそれほど重要ではない可能性があります。たとえば、予測またはサンプル内でのみ評価されるか、0または1に近すぎないためです。しかし、一部のアプリケーションでは重要であり、通常、それが重要かない。私が見た典型的な問題には、元の学習サンプルの範囲外にある（わずかに）新しい値の予測を評価したり、適切な開始値を見つけたりすることが含まれます。後者については、次の点を考慮してください。 $g(\mu): (0,1) \rightarrow \mathbb{R}$ $\hat \mu = g^{-1}(x^\top \hat \beta)$ $(0, 1)$ $x$

library("betareg")
data("GasolineYield", package = "betareg")
betareg(yield ~ batch + temp, data = GasolineYield, link = make.link("identity"))
## Error in optim(par = start, fn = loglikfun, gr = if (temporary_control$use_gradient) gradfun else NULL,  : 
##   initial value in 'vmmin' is not finite

ただし、もちろん、両方のオプションを試して、IDリンクに問題が発生していないかどうか、モデルの適合性が向上しているかどうかを確認できます。

パラメータの解釈：リンク関数を含むモデルでのパラメータの解釈は、アイデンティティリンクを含むモデルよりも困難であり、開業医はしばしばそれを誤解することに同意します。ただし、線形確率モデル（通常、最小二乗によるアイデンティティリンクを使用したバイナリ回帰）のパラメーターの解釈が間違っていることもよくあります。予測が0または1に十分近づき、注意が必要な場合、限界効果は一定であるという仮定は成り立たなくなります。たとえば、観測値の場合、増加はの減少にはつながりません。 $\hat \mu = 0.01$ $x$ $\hat \mu$ $0.02$ 。しかし、これはそれらのシナリオではしばしば非常にだらしなく扱われます。したがって、制限付き応答モデルの場合、リンク関数のパラメーターは慎重に解釈する必要があり、いくつかの練習が必要になる可能性があると私は主張します。したがって、私の通常のアドバイスは、（質問でリンクした他のディスカッションに示されているように）関心のあるリグレッサ構成の影響を調べることです。これらは解釈が簡単で、さまざまなリンク機能に対して（実用的観点から）しばしば（常にではない）かなり似ています。

— アヒム・ザイレイス
ソース

10

ロジスティック回帰がバイナリ結果データのモデル化にしか使用できないのは誤りです。ロジスティック回帰モデルは、1）結果の期待値が予測子の関数としてロジスティック曲線に従う2）結果の分散が、期待される結果の1から期待される結果（またはその一部）を引いたものであるすべてのデータに適しています。 3）（2の結果）データ範囲は0〜1です。これらのプロパティは、ベルヌーイデータにも当てはまります。しかし、科学的質問に答えるための実行可能な（そして実装/説明が容易な）手段としてロジスティックモデルの信用をすぐに失う前に、いくつかの探索的統計とプロットを行う必要があります。

ロジスティック回帰モデルは、一般化線形モデル（GLM）の特殊なケースです。これは、一貫したパラメーター推定と推論がモデルによって与えられることを意味します。ロジスティックモデルは、比率、順序変数、レート、試験のスコア、ランク、および文献のいくつかの場所にある非バイナリの結果のすべての方法をモデル化するために使用されます。

この回答はあなたの質問を後で説明するものではありませんが、以前の推論を述べることは対処する価値のある誤解を引き起こします。

多くのRユーザーは、継続的な応答をロジスティックモデルに適合させることから生じる「警告」を抑制する必要があると提案しています。「道の真ん中」の方法はに変更family=binomialすることfamily=quasibinomialです。これらのデータのシミュレーション、モデルの適合、および正しい推論の取得の例を以下に示します。

set.seed(123)
## logistic non-binary response
x <- rep(c(-2, 0, 2), each=50)
n <- length(x)
b0 <- 0
b1 <- 0.3
yhat <- plogis(b0 + b1*x)

do.one <- function(){
  e <- rnorm(n, 0, yhat*(1-yhat))
  y <- yhat + e

  yfixed <- pmin(y, 1)
  yfixed <- pmax(yfixed, 0)

  est <- glm(yfixed ~ x, family=quasibinomial())
  ci <- confint.default(est, level = 0.9)
  cov0 <- b0 > ci[1,1] & b0 < ci[1,2]
  cov1 <- b1 > ci[2,1] & b1 < ci[2,2]
  c(cov0, cov1)
}

reg <- replicate(10000, do.one())
rowMeans(reg)

CIの正確な90％カバレッジを提供します

— アダモ
ソース

1

私はロジスティック回帰モデルに関して与えられた説明に感謝します。想定されるよりも一般的なモデルであることは間違いありません。それはしないようですので、私は、しかし、その答えとしてこれを受け入れることを躊躇していますかなり推論十分のラインを開発しています。バイナリモデル以外のデータではロジットリンクが正常に機能するため、ベータモデルのロジットリンクに対する私の懸念は根拠がないとおっしゃっているようです。これは合理的なスタンスですが、ベータモデルでロジットを使用する理由とそれをどのように解釈するかについての私の質問の要点にはまったく気が付かないと思います。

— ライアンシモンズ

1

@RyanSimmonsフィードバックをありがとう。ここでのあなたの推論に同意します。「学ぶ機会」があれば答えは当然だと私は思います。したがって、1つの質問にはさまざまな程度の「正しさ」を持つ多くの可能な答えがあるかもしれません。私はあなたの質問には触れませんでした。それは良い質問なので、「正しい」答えがまだ表示されるかもしれません。私自身、これについて知りたいので、この件についてもう少し読んでみます。

— AdamO