タグ付けされた質問 「beta-regression」

ベータ回帰は、従属変数が有界である場合、または天井または床の効果がある場合に役立ちます。また、平均と分散の両方のモデリングにも使用できます。

3
0〜1の結果(比率または分数)の回帰
私は、比率の予測モデルの構築を考えています、≤ B及び> 0及びB > 0を。だから、比率が間になる0と1。a / ba/ba/b≤ Ba≤ba \le ba > 0a>0a > 0b > 0b>0b > 0000111 線形回帰を使用できますが、自然に0.1に制限されるわけではありません。関係が線形であると信じる理由はありませんが、もちろん、とにかく、単純な最初のモデルとしてしばしば使用されます。 ロジスティック回帰を使用できますが、通常は2状態の結果の確率を予測するために使用され、範囲0.1からの連続値を予測するためではありません。 これ以上何も知らない場合、線形回帰、ロジスティック回帰、または非表示オプションcを使用しますか?

3
ベータ/ディリクレ回帰が一般化線形モデルと見なされないのはなぜですか?
前提は、Rパッケージbetareg1のビネットからのこの引用です。 さらに、モデルはいくつかのプロパティ(線形予測子、リンク関数、分散パラメーターなど)を一般化線形モデル(GLM、McCullaghおよびNelder 1989)と共有しますが、このフレームワークの特殊なケースではありません(固定分散ではありません) ) この答えは、事実を暗示しています。 [...]これは、応答変数がベータとして配布される場合に適したタイプの回帰モデルです。一般化線形モデルに類似していると考えることができます 。それはまさにあなたが探しているものです[...](私の強調) 質問のタイトルはそれをすべて言っています:なぜベータ/ディリクレ回帰は一般化線形モデルと見なされないのですか? 私の知る限り、一般化線形モデルは、独立変数を条件とする従属変数の期待に基づいて構築されたモデルを定義します。 fffは期待値をマップするリンク関数、は確率分布、は結果、は予測子、\ betaは線形パラメーター、\ sigma ^ 2は分散です。YgggYYYXXXββ\betaσ2σ2\sigma^2 f(E(Y∣X))∼g(βX,Iσ2)f(E(Y∣X))∼g(βX,Iσ2)f\left(\mathbb E\left(Y\mid X\right)\right) \sim g(\beta X, I\sigma^2) 異なるGLMは平均と分散の関係を課します(または緩和します)が、gggは指数ファミリーの確率分布でなければなりません。これは、正しく思い出せば推定の堅牢性を向上させる望ましい特性です。ただし、ベータおよびディリクレ分布は指数関数ファミリーの一部であるため、私はアイデアを失っています。 [1] Cribari-Neto、F.&Zeileis、A.(2009)。Rのベータ回帰

4
ベータ回帰で0,1値を処理する
[0,1]にいくつかのデータがあり、ベータ回帰で分析したいと思います。もちろん、0,1値に対応するために何かをする必要があります。モデルに合わせてデータを変更するのは嫌いです。また、この場合、0が非常に小さい正の値であると考える必要があると考えているため、ゼロと1のインフレが良い考えだとは思いません(しかし、どの値が適切であるかを正確に言いたくありません。 .001や.999などの小さな値を選択し、ベータの累積distを使用してモデルに適合させることになると思います。したがって、観測y_iの場合、対数尤度LL_iは if y_i < .001 LL+=log(cumd_beta(.001)) else if y_i>.999 LL+=log(1.0-cum_beta(.999)) else LL+=log(beta_density(y_i)) このモデルで私が気に入っているのは、ベータ回帰モデルが有効な場合、このモデルも有効ですが、極値に対する感度が少し削除されることです。しかし、これは非常に自然なアプローチであるように思えるので、なぜ文献に明白な参照が見つからないのか疑問に思います。だから私の質問は、データを変更するのではなく、なぜモデルを変更しないのですか。データを変更すると結果にバイアスがかかります(元のモデルが有効であるという仮定に基づいて)が、極値をビニングしてモデルを変更しても結果にバイアスはかかりません。 おそらく私が見落としている問題がありますか?

5
1と0を含む比率データのベータ回帰
0と1の間の比率である応答変数を持つモデルを作成しようとしています。これには、かなりの数の0と1が含まれますが、その間の多くの値も含まれます。ベータ回帰を試みることを考えています。R(betareg)で見つかったパッケージでは、0から1の間の値のみが許可されますが、0または1自体は含まれません。私は理論的にはベータ分布が0または1の値を処理できるはずであることを他の場所で読みましたが、RIでこれを処理する方法がわかりませんが、ゼロに0.001を追加し、1から0.001を取る人がいますこれは良いアイデアだと思いますか? あるいは、応答変数をロジット変換し、線形回帰を使用することもできます。この場合、ログ変換できない0と1の問題があります。

2
応答変数の0と1をベータ回帰で正確に処理できないのはなぜですか?
多くの場合、0から1の間の値をとる分数、比率、確率などの応答を処理するために、ベータ回帰(ベータ分布と通常はロジットリンク関数を使用するGLM)が推奨されます:結果の回帰(比率または分数) 0と1の間。 ただし、応答変数が0または1に少なくとも1回等しくなるとすぐにベータ回帰を使用できないと常に主張されています。その場合、ゼロ/ 1膨張ベータモデルを使用するか、応答の変換などを行う必要があります。1および0を含む比率データのベータ回帰。 私の質問は次のとおりです。ベータ分布のどのプロパティが、ベータ回帰が正確な0と1を処理するのを妨げますか、そしてその理由は何ですか? とはベータ配布をサポートしていないと思います。しかし、すべての形状パラメータのためにと、両方の0と1があるベータ分布の支援では、分布が片側または両側に無限大に行くことをより小さな形状パラメータのみです。そしておそらく、サンプルデータは、とが最適に適合し、両方とも超えるようなものです。000111α>1α>1\alpha>1β>1β>1\beta>1αα\alphaββ\beta111 場合によっては、実際にはゼロ/ 1でもベータ回帰を使用できるということですか? もちろん、0と1がベータ分布をサポートしている場合でも、正確に0または1を観測する確率はゼロです。しかし、他の与えられた数えられる値のセットを観察する確率はそうなので、これは問題になりえないでしょうか?(@Glen_bによるこのコメント)。 \hskip{8em} ベータ回帰のコンテキストでは、ベータ分布は異なる方法でパラメーター化されますが、では、すべてのに対してで明確に定義される必要があります。ϕ=α+β>2ϕ=α+β>2\phi=\alpha+\beta>2[0,1][0,1][0,1]μμ\mu

2
ベータ回帰でロジットリンクを使用する理由
最近、私は比率である結果のために、ベータ回帰モデルの実装に興味を持っています。この結果には離散的な「成功」という意味のある概念がないため、この結果は二項の状況に適合しないことに注意してください。実際、結果は実際には期間の比率です。分子は、特定の条件がアクティブであった間の秒数であり、その条件がアクティブである資格があった合計秒数です。私は気まぐれで申し訳ありませんが、このようなプロセスをベータ回帰以外にもさまざまな方法でモデル化できることに気付いているので、この正確なコンテキストにあまり重点を置きたくありません。そのようなモデルを実装しようとする私の試みで生じた質問(もちろん、私は いずれにせよ、私が見つけることができたすべてのリソースは、ベータ回帰が通常、ロジット(またはプロビット/クロログ)リンクと、ログオッドの変更として解釈されるパラメーターを使用して適合していることを示しています。ただし、このリンクを使用する理由を実際に正当化するためのリファレンスはまだ見つけていません。 元のFerrari&Cribari-Neto(2004)の論文では正当化されていません。指数パラメータのオッズ比の解釈により、ロジット関数が「特に有用」であることにのみ言及しています。他の情報源は、間隔(0,1)から実際の線にマップすることを望んでいます。しかし、すでにベータ分布を想定している場合、そのようなマッピングにはリンク関数が必ずしも必要ですか?最初にベータ分布を仮定することによって課される制約を超えて、リンク関数はどのような利点を提供しますか?いくつかのクイックシミュレーションを実行しましたが、確率リンクが主に0または1近くに集中しているベータ分布からシミュレーションした場合でも、アイデンティティリンクで(0,1)間隔の外側の予測を確認していませんが、おそらく私のシミュレーションいくつかの病状を捉えるのに十分一般的ではありませんでした。 個人が実際にベータ回帰モデルからのパラメーター推定をどのように解釈するかに基づいて(つまり、オッズ比として)、「成功」のオッズに関して暗黙的に推論しているように思えます。つまり、二項モデルの代わりにベータ回帰を使用しています。ベータ分布と二項分布の間の関係を考えると、これはおそらく一部のコンテキストでは適切ですが、これは一般的なものよりも特別なケースのように思えます。では、この質問、答えは連続割合ではなく、成果に対するオッズ比を解釈するために提供されていますが、使用するのではなく、この方法を試してみて、物事を解釈するために不必要に面倒なことに私には思われる、と言う、ログまたはIDリンクと%変更または単位シフトの解釈。 では、なぜベータ回帰モデルにロジットリンクを使用するのでしょうか。それを二項モデルに関連付けるのは、単に便宜上の問題ですか?

3
Rでbetareg関数を使用して混合モデルを実装する方法は?
私は、個々のオタマジャクシの「活動レベル」を測定する比率で構成されるデータセットを持っているため、値は0と1の間でバインドされます。このデータは、特定の時間間隔(移動の場合は1動きがない場合は0)、平均して個人ごとに1つの値を作成します。私の主な固定効果は「密度レベル」でしょう。 私が直面している問題は、変量効果として含めたい因子変数「池」があることです。池の違いは気にしませんが、統計的に考慮します。池に関する重要な点の1つは、池が3つしかないことです。ランダムな効果を処理するときは、より多くの因子レベル(5+)を持つことが理想的であることを理解しています。 可能であれば、Rを使用して、betareg()またはbetamix()Rで混合モデルを実装する方法についてアドバイスをお願いします。Rのヘルプファイルを読んだことがあるのですが、通常、それらを理解するのは難しいと感じます(各引数パラメーターが実際に意味するところ)私自身のデータと、生態学的な意味での出力値の意味)ので、例を介してよりよく働く傾向があります。 関連するノートでは、代わりにglm()二項ファミリーの下でロジットリンクを使用して、この種のデータで変量効果を説明できるかどうか疑問に思っていました。

3
線形回帰の誤差の分散共分散行列
実際には、var / covエラーマトリックスは統計分析パッケージによってどのように計算されますか? この考えは理論的には私には明らかです。しかし実際にはそうではありません。つまり、確率変数のベクトルがある場合、分散/共分散行列平均からの逸脱ベクトルの外積が与えられます:。 ΣX=(X1,X2,…,Xn)⊤X=(X1,X2,…,Xn)⊤\textbf{X}=(X_{1}, X_{2}, \ldots, X_{n})^\topΣΣ\SigmaΣ=E[(X−E(X))(X−E(X))⊤]Σ=E[(X−E(X))(X−E(X))⊤]\Sigma=\mathrm{E}\left[(\textbf{X}-\mathrm{E}(\textbf{X}))(\textbf{X}-\mathrm{E}(\textbf{X}))^\top\right] しかし、サンプルがある場合、私の観測の誤差は確率変数ではありません。またはそれ以上ですが、同じ母集団から多数の同一のサンプルを取得した場合のみです。そうでなければ、それらは与えられます。だから、再び私の質問は:統計パッケージはどのようにして研究者によって提供された観測(つまりサンプル)のリストから始まるvar / cov行列を生成できるのでしょうか?

1
異常に制限された応答変数の回帰の処理
理論的には-225から+225の範囲にある応答変数をモデル化しようとしています。変数は、ゲームをプレイしたときに被験者が得た合計スコアです。理論的には、被験者が+225を獲得することは可能です。それにもかかわらず、スコアは被験者のアクションだけでなく別のアクションのアクションにも依存していたため、スコアの最大の誰もが125でした(これは、お互いにプレーしている2人のプレーヤーが両方ともスコアできる最高のスコアです)。これは非常に高い頻度で発生しました。最低スコアは+35でした。 この125の境界は、線形回帰で問題を引き起こしています。私が考えられる唯一のことは、応答を0と1の間になるように再スケーリングし、ベータ回帰を使用することです。+225をスコアリングできるので、これを行う場合、125がトップ境界(または変換後の1)であると本当に正当化できるかどうかはわかりません。さらに、これを行った場合、私の下部境界はどうなるでしょう35。 おかげで、 ジョナサン

2
BUGS / JAGS / STANでプロポーションをモデリングするにはどうすればよいですか?
私は、応答が比例であるモデルを構築しようとしています(これは、実際に党が選挙区で獲得する投票のシェアです)。その分布は正規ではないため、ベータ分布でモデル化することにしました。私はいくつかの予測因子も持っています。 しかし、私はそれをBUGS / JAGS / STANで書く方法がわかりません(JAGSが私の最良の選択でしょうが、それは本当に重要ではありません)。私の問題は、予測子によってパラメーターの合計を作成することですが、それを使って何ができるでしょうか コードは(JAG構文では)このようなものにy_hatなりyますが、およびパラメーターを「リンク」する方法がわかりません。 for (i in 1:n) { y[i] ~ dbeta(alpha, beta) y_hat[i] <- a + b * x[i] } (y_hatは、パラメーターと予測子のクロス積であり、したがって決定論的な関係です。aそしてb、私xが予測しようとする係数であり、予測子です)。 あなたの提案をありがとう!

1
二項設定の下での成功の将来の割合の予測間隔
二項回帰を当てはめ、回帰係数の点推定と分散共分散行列を取得するとします。これにより、将来の実験で期待される成功の割合 CIを取得できますが、観測された割合のCIが必要です。シミュレーション(私はそれをしたくないと思う)やKrishnamoorthya et al(私の質問には完全には答えていません)へのリンクなど、いくつかの関連する回答が投稿されています。ppp 私の推論は次のとおりです:二項モデルだけを使用する場合、は(対応するWald CIを使用して)正規分布からサンプリングされると仮定する必要があるため、閉じた形式で観測された比率のCIを取得することは不可能です。がベータ分布からサンプリングされると仮定すると、成功数はベータ二項分布に従うため、状況ははるかに簡単です。推定ベータパラメーターおよび不確実性がないと仮定する必要があります。ppppppαα\alphaββ\beta 3つの質問があります。 1)理論的なもの:ベータパラメータのポイント推定値のみを使用しても問題ありませんか?多重線形回帰で将来の観測のためにCIを構築することを知っています Y=x′β+ϵ,ϵ∼N(0,σ2)Y=x′β+ϵ,ϵ∼N(0,σ2)Y = x'\beta + \epsilon, \epsilon \sim N(0, \sigma^2) 彼らはそのwrtエラー項分散ます。正当化の理由は、実際にはは回帰係数よりもはるかに高い精度で推定され、不確実性を取り入れようとしてもあまり利益が得られないということです。。同様の根拠は、推定されたベータパラメータと当てはまりますか?σ2σ2\sigma^2σ2σ2\sigma^2σ2σ2\sigma^2αα\alphaββ\beta 2)どのパッケージの方が優れていますか(R:gamlss-bb、betareg、aod ?; SASにもアクセスできます)。 3)推定されたベータパラメーターを前提として、将来の成功の数、またはさらに良いことに、ベータ二項分布の下での将来の成功の割合の分位数(2.5%、97.5%)を取得する(概算)ショートカットはありますか?

2
(0,1)によってバインドされたパーセンテージを予測するための時系列モデルとは何ですか?
これは浮かび上がるはずです--- 0と1の間で止まっているものの予測。 私のシリーズでは、自動回帰コンポーネントと平均回帰コンポーネントも疑っています。そのため、ARIMAのように解釈できるものが欲しいのですが、将来1000%まで飛ばしたくありません。 。 ロジスティック回帰のパラメーターとしてARIMAモデルを使用して、結果を0と1の間に制限しますか? または、ベータ回帰は(0,1)データに適していることをここで学びました。これを時系列にどのように適用できますか?これを簡単にフィッティングおよび予測できる優れたRパッケージまたはMatlab関数はありますか?

2
混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックブートストラップ
以下の移植片は、この記事から引用したものです。私はブートストラップの初心者であり、R bootパッケージを使用した線形混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックのブートストラップブートストラップを実装しようとしています。 Rコード これが私のRコードです: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) Out ご質問 …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

1
分散=とベータ回帰と準GLMの違いは何である
まず、背景を説明しましょう。最後に質問をまとめます。 その平均値によってパラメータベータ分布、及びφは、持っているヴァー(Y )= V (μ )/(φ + 1 )、V (μ )= μ (1 - μは)分散関数です。μμ\muϕϕ\phiVar(Y)=V(μ)/(ϕ+1)Var⁡(Y)=V⁡(μ)/(ϕ+1)\operatorname{Var}(Y) = \operatorname{V}(\mu)/(\phi+1)V(μ)=μ(1−μ)V⁡(μ)=μ(1−μ)\operatorname{V}(\mu) = \mu(1-\mu) ベータ回帰(例えば、Rにbetaregパッケージを使用)において、回帰は、ベータ分布の誤差を想定し、固定効果との値を推定。ϕϕ\phi GLM回帰では、の分散機能と「準」分布を定義することが可能である。したがって、ここでのモデルは、ベータと同じ分散関数を持つエラーを想定しています。次に、回帰は固定効果と準分布の「分散」を推定します。μ(1−μ)μ(1−μ)\mu(1-\mu) 重要なものが欠けているかもしれませんが、これらの2つの方法は本質的に同じで、おそらく推定方法が異なるだけのようです。 Iは間隔である「類似性」と呼ばれるDV、上退縮、Rの両方の方法を試みた:(0,1)(0,1)(0,1) Call: betareg(formula = Similarity ~ N + NK + Step_ent, data = TapData, link = "logit") Coefficients (mean model with logit link): Estimate Std. Error z value …

1
betareg coefの解釈
結果は、ある地域で機械によって2日間別々に観察された種の割合であるというデータがあります。結果は比率であり、0または1が含まれていないので、モデルを適合させるためにベータ回帰を使用しました。温度は独立変数として使用されます。これがおもちゃのRコードです。 set.seed(1234) library(betareg) d <- data.frame( DAY = c(1,1,1,1,2,2,2,2), Proportion = c(.4,.1,.25, .25, .5,.3,.1,.1), MACHINE = c("A","B","C","D","H","G","K","L"), TEMPERATURE = c(rnorm(8)*100) ) b <- betareg(Proportion ~ TEMPERATURE, data= d, link = "logit", link.phi = NULL, type = "ML") summary(b) ## Call: ## betareg(formula = Proportion ~ TEMPERATURE, data = d, link …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.