タグ付けされた質問 「offset」

固定係数が1の変数。ポアソン回帰では、カウントではなくレートのモデリングを可能にするために、オフセットが一般的に使用されます。


2
ポアソンモデルでは、時間を共変量またはオフセットとして使用することの違いは何ですか?
最近、時間のログをポアソン回帰のオフセットとして使用して、時間の経過に伴う露出をモデル化する方法を発見しました。 オフセットは、係数1と共変量として時間を持つことに対応することを理解しました。 時間をオフセットとして使用するか、通常の共変量として使用するか(そのため係数を推定する)の違いをよりよく理解したいと思います。どの状況で、どちらの方法を使用する必要がありますか? アップグレード:面白いかどうかわかりませんが、ランダムに分割されたデータを500回繰り返して使用して2つの方法の検証を実行し、オフセット方法を使用するとテストエラーが大きくなることに気付きました。

4
増加した患者数を説明するために二項モデルでオフセットを使用する
私からの2つの関連する質問。1つの列に患者の数(範囲10〜17人の患者)と、その日にインシデントが発生したかどうかを示す0と1を含むデータフレームがあります。私は二項モデルを使用して、多数の患者のインシデントの確率を回帰しています。しかし、患者の数が増えると、その日の病棟での患者の総時間は長くなるため、必然的にインシデントが増えるという事実に合わせて調整したいと思います。 だから私はこのようなオフセット二項モデルを使用しています(Rコード): glm(Incident~Numbers, offset=Numbers, family=binomial, data=threatdata) 私の質問は: 正確に同じ変数を予測してオフセットに入れても大丈夫ですか?インシデントの可能性の強大な増加を部分的に取り除き、本質的に何かが残っているかどうかを確認したい 私には理にかなっていますが、私が間違っている場合には少し慎重です。 オフセットは正しく指定されていますか?ポアソンモデルでは次のようになります。 offset=log(Numbers) ここに同等のものがあるかどうかはわかりませんが、Googleで二項オフセットを見つけることができないようです(主な問題は、私が負の二項を取得し続けることです、もちろん良くありません)。

3
単純なカイ二乗検定の代わりとしてglm()を使用する
glm()R を使用して帰無仮説を変更することに興味があります。 例えば: x = rbinom(100, 1, .7) summary(glm(x ~ 1, family = "binomial")) という仮説をテストします。nullを =何らかの任意の値に変更したい場合はどうすればよいですか? p=0.5p=0.5p = 0.5pppglm() これはprop.test()and でも実行できることはわかっていますが、カテゴリデータに関連するすべての仮説をテストchisq.test()するために使用glm()するアイデアを探求したいと思います。

2
対数オフセットのあるバイナリモデル(プロビットおよびロジット)
プロビットやロジットなどのバイナリモデルでオフセットがどのように機能するのか、誰からも導出されていますか? 私の問題では、フォローアップウィンドウの長さが異なる場合があります。患者が治療として予防注射を受けたとします。ショットはさまざまなタイミングで発生するため、結果がフレアアップが発生したかどうかのバイナリインジケータである場合、一部の人々が症状を示す時間があることを調整する必要があります。フレアアップの確率は、フォローアップ期間の長さに比例するようです。(ポアソンとは異なり)オフセットのあるバイナリモデルがこの直感をどのようにキャプチャするかは、数学的には明確ではありません。 オフセットは、Stata(p.1666)とRの両方の標準オプションであり、ポアソンについては簡単に確認できますが、バイナリの場合は少し不透明です。 たとえば、 これは代数的にモデルと同等です。 は、係数が1に制限された標準モデルです。これは対数オフセットと呼ばれます。\ exp \ {\}を\ Phi()または\ Lambda()に置き換えた場合、これがどのように機能するかを理解するのに苦労しています。E[y| x]=exp{x′β+logZ}、logZ1E[ y| x ]Z= exp{ x′β} 、E[y|バツ]Z=exp⁡{バツ′β}、\begin{equation} \frac{E[y \vert x]}{Z}=\exp\{x'\beta\}, \end{equation}E[ y| x ] = exp{ x′β+ ログZ} 、E[y|バツ]=exp⁡{バツ′β+ログ⁡Z}、\begin{equation}E[y \vert x]=\exp\{x'\beta+\log{Z}\}, \end{equation}ログZログ⁡Z\log Z111Φ ()Λ ()exp{ }exp⁡{}\exp\{\}Φ ()Φ()\Phi()Λ ()Λ()\Lambda() アップデート#1: 以下にロジットのケースについて説明しました。 アップデート#2: ここでは、プロビットのような非ポアソンモデルのオフセットの主な使用方法と思われるものについて説明します。オフセットを使用して、インデックス関数係数の尤度比テストを実行できます。まず、制約のないモデルを推定し、推定を保存します。という仮説をテストするとします。次に、変数を作成し、をドロップし、を非対数オフセットとして使用するモデルに適合します。これが制約モデルです。LRテストは2つを比較し、通常のWaldテストの代替です。、Z = 2 ⋅ X X Zβバツ= 2βバツ=2\beta_x=2z= …

3
ポアソンGLMにオフセットを使用する必要がありますか?
私は、2つの異なる水中視覚センサス法を使用した場合の魚密度と魚種の豊富さの違いを調べるための研究を行っています。私のデータは元々はカウントデータでしたが、通常は魚の密度に変更されますが、ポアソンGLMを使用することに決めました。 model1 <- glm(g_den ~ method + site + depth, poisson) 私の3つの予測変数は、メソッド、サイト、および深さです。 私の応答変数は、ハタ種の豊富さ、ハタ密度、および他の魚群と同じです。密度は整数ではなく、数値データであることを認識しています(例:1.34849)。私は今このエラーを得ています: In dpois(y, mu, log = TRUE) : non-integer x = 0.037500 私は読んでいて、多くの人がオフセットの使用を提案していますが、これは最も賢明なことですか?

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

3
一部の観測値のオフセット変数が0であるカウントデータのモデリング
私は同僚の学生を助けようとしています。学生は実験的なセットアップで鳥の行動(鳴き声の数)を観察して数えました。各実験中に特定の観察された鳥に起因する呼び出しの数は特定できませんでしたが、記録された呼び出しの数に貢献した鳥の数を数えることは可能でした。したがって、私の最初の提案は、鳥の数をポアソンGLMモデルのオフセット項として含めることでした。そのため、鳥ごとの予想される呼び出し数を当てはめます。 log(0)=−inflog⁡(0)=−inf\log(0) = -\infy-Infoffset(log(nbirds))-Inf 私は実際に、「観測されたコール」のための別個の二項モデルがあるハードルモデル(または同様のモデル)が必要だと思います。(またはそうでない)と、呼び出しがあった状況での(鳥ごとの)呼び出し数の切り捨てカウントモデル。オフセット項はモデルのカウント部分にのみ含めます。 R のpsclパッケージを使用してこれを試しましたが、それでも同じエラーが発生します。 mod1 <- hurdle(NumberCallsCOPO ~ Condition * MoonVis + offset(log(NumberCOPO)) | 1, data = Data, dist = "poisson") 同じRコード(カウントモデルパーツを適合glm.fitさhurdle()せるためにによって内部的に使用されます)がチェックし-Infているのは、これらの観測に対するモデルの適合に影響を与えるとは思わないからです。(それは正しい仮定ですか?) NumberCOPO(たとえば0.0001)に小さな数を追加することでモデルをフィットさせることができますが、これはせいぜいファッジです。 この小さな導通補正を追加しても実際には問題ないでしょうか?そうでない場合、Poissonモデルでオフセット変数を使用して値を0にできるデータを処理するときに、他にどのようなアプローチを検討する必要がありますか?私が遭遇したすべての例は、オフセット変数に0が不可能な状況のためのものです。

1
オフセットでGLMポアソンを予測
これはおそらく基本的な質問だと思います...しかし、私は答えを見つけられないようです。 私はGLMをポアソンファミリに適合させてから、予測を確認しようとしましたが、オフセットが考慮されているようです。 model_glm=glm(cases~rhs(data$year,2003)+lhs(data$year,2003), offset=(log(population)), data=data, subset=28:36, family=poisson()) predict (model_glm, type="response") レートではなくケースが表示されます... 私も試しました model_glm=glm(cases~rhs(data$year,2003)+lhs(data$year,2003)+ offset(log(population)), data=data, subset=28:36, family=poisson()) 同じ結果。ただし、mgcvを使用してGAMから予測する場合、予測ではオフセットを考慮します(レートを取得します)。 何か不足していますか?

2
重みとオフセットは、ポアソン回帰で同様の結果をもたらすことができますか?
では、「一般化線形モデルにA実施者のガイド」のパラグラフ1.83でそれがことが述べられています。 「ポアソン乗法GLMの特定のケースでは、エクスポージャーの対数に等しいオフセット項を使用してクレームカウントをモデリングすると、以前の重みが各観測のエクスポージャーと等しくなるように設定されたクレーム頻度のモデリングと同じ結果が生成されたことが示されます。 」 私はこの結果についてこれ以上の参考文献を見つけることができなかったので、ステートメントが正しいことの証拠を見つけることができなかったいくつかの経験的テストを行いました。この結果が正しい/間違っている理由について誰かが洞察を提供できますか? 参考までに、私は次のRコードを使用して仮説をテストしました。この仮説では、上記の2つのケースで同様の結果を得ることができませんでした。 n=1000 m=10 # Generate random data X = matrix(data = rnorm(n*m)+1, ncol = m, nrow = n) intercept = 2 coefs = runif(m) offset = runif(n) ## DGP: exp of Intercept + linear combination X variables + log(offset) mu = exp(intercept + X%*%coefs + log(offset)) …

1
ポアソン回帰におけるオフセットと露出の違い
露出とオフセットは、保険数理を予測するためにアクチュアリーがポアソン回帰でよく使用する2つの手法です。 私の理解から、オフセットと露出は同じものなので、同じことを説明する2つの用語がある理由がわかりません。 それは正しいですか、それともオフセットと露出が異なるものである(たとえば、ポアソン回帰以外の)特別なケースがありますか?

2
露光付きポアソンxgboost
露出が不均一なカウント依存変数をモデル化しようとしていました。古典的なglmsはオフセットとしてlog(exposure)を使用しますが、gbmも使用しますが、xgboostは今までオフセットを許可していません... この例をクロスバリデーション(オフセットはポアソン/負の二項回帰でどこに行くのか)で欠点を見つけようとすると、露出による重み付けのカウントの代わりに頻度(実数)をモデル化するように提案されました。 データに同じメソッドを適用するためにいくつかのxgboostコードに沿って作業しようとしましたが、失敗しました...コードの下に設定しました: library(MASS) data(Insurance) library(xgboost) options(contrasts=c("contr.treatment","contr.treatment")) #fissa i Insurance$freq<-with(Insurance, Claims/Holders ) library(caret) temp<-dplyr::select(Insurance,District, Group, Age,freq) temp2= dummyVars(freq ~ ., data = temp, fullRank = TRUE) %>% predict(temp) xgbMatrix <- xgb.DMatrix(as.matrix(temp2), label = Insurance$freq, weight = Insurance$Holders) bst = xgboost(data=xgbMatrix, label = Insurance$freq, objective='count:poisson',nrounds=5) #In xgb.get.DMatrix(data, label) : xgboost: label …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.