タグ付けされた質問 「generalized-linear-model」

「リンク関数」を介して非線形関係を可能にし、応答の分散を予測値に依存させることができる線形回帰の一般化。(通常の線形モデルを一般的な共分散構造と多変量応答に拡張する「一般線形モデル」と混同しないでください。)

1
Rの二項GLMの応答の入力形式
でR、使用してロジスティック回帰のための入力データをフォーマットするための3つの方法があるglm関数は: データは、観測ごとに「バイナリ」形式にすることができます(たとえば、観測ごとにy = 0または1)。 データは「Wilkinson-Rogers」形式(例:)で、y = cbind(success, failure)各行が1つの処理を表します。または データは、観測ごとに加重形式にすることができます(たとえば、y = 0.3、加重= 10)。 3つのアプローチはすべて同じ係数推定値を生成しますが、自由度と結果の逸脱値とAICスコアが異なります。最後の2つの方法では、観測値の数ごとに各処理を使用するのに対し、最初の方法では観測値の数ごとに各観測値を使用するため、観測値が少なくなります(したがって自由度)。 私の質問:ある入力形式を別の入力形式よりも使用することには、数値的または統計的な利点がありますか?私が見る唯一の利点はR、モデルで使用するためにデータを再フォーマットする必要がないことです。 私はglmのドキュメントを見て、ウェブで検索し、このサイトで接線的に関連する投稿を見つけましたが、このトピックに関するガイダンスはありません。 この動作を示すシミュレーション例は次のとおりです。 # Write function to help simulate data drc4 <- function(x, b =1.0, c = 0, d = 1, e = 0){ (d - c)/ (1 + exp(-b * (log(x) - log(e)))) } # simulate …

2
ガンマ分布でGLMにRを使用する
現在、ガンマ分布を使用してGLMを近似するためのRの構文を理解するのに問題があります。 データのセットがあり、各行には3つの共変量()、応答変数(Y)、および形状パラメーター(K)が含まれています。ガンマ分布のスケールを3つの共変量の線形関数としてモデル化したいのですが、データの各行に対して分布の形状をKに設定する方法がわかりません。X1,X2,X3X1,X2,X3X_1, X_2, X_3YYYKKKKKK 私が似ていると思う状況は、二項分布の場合、GLMでは各データエントリについて試行回数()がわかっている必要があるということです。NNN

2
GLMでのダミー(手動または自動)変数の作成について
因子変数(レベルMとFの性別など)がglm式で使用されている場合、ダミー変数が作成され、関連する係数(たとえば、genderM)とともにglmモデルの要約に表示されます。 この方法で因子を分割するためにRに依存する代わりに、因子が一連の数値0/1変数(たとえば、genderM(1はM、0はF))、genderF(1はF、0はM)そして、これらの変数は、glm式で数値変数として使用されますが、係数の結果は異なりますか? 基本的に問題は次のとおりです。Rは因子変数と数値変数を操作するときに異なる係数計算を使用しますか? フォローアップの質問(上記で回答されている可能性があります):Rにダミー変数を作成させる効率だけでなく、一連の数値0,1変数として係数を再コーディングし、代わりにモデルでそれらを使用することで問題はありますか?

1
GLMのモデル平均化のために、リンクまたは応答スケールで予測を平均しますか?
GLMの応答スケールでモデル平均予測を計算するには、「正しい」のはなぜですか? リンクスケールでモデル平均予測を計算し、応答スケールに逆変換するか、または 予測を応答スケールに逆変換し、モデルの平均を計算します モデルがGLMの場合、予測は近いものの等しくありません。異なるRパッケージは、両方にオプションを提供します(デフォルトは異なります)。何人かの同僚は、「誰もが#2をしている」ため#1が間違っていると大声で主張しています。私の直感では、#1はすべての線形数学を線形に保つため「#1」が正しいと言います(#2は線形スケールではないものを平均します)。単純なシミュレーションでは、#2のMSEが#1よりも非常に(非常に)わずかに小さいことがわかります。#2が正しい場合、その理由は何ですか?そして、もし#2が正しいなら、なぜ私の理由(線形の数学を線形に保つ)が不十分な推論であるのですか? 編集1:GLMの別の要因のレベルに対する限界平均の計算は、私が上で尋ねている質問と同様の問題です。Russell Lenthは#1(emmeansパッケージ内)の「タイミング」(彼の言葉)を使用してGLMモデルの周辺平均を計算し、彼の議論は私の直感に似ています。 編集2:モデル平均化を使用して、予測(または係数)が「最適な」ネストされたモデルのすべてまたはサブセットの加重平均として推定されるモデル選択の代替を参照しています(参照およびRパッケージを参照) 。 MMMηm私η私m\eta_i^m私私immmwmwmw_mmmm Y^私= g− 1( Σm = 1Mwmηm私)Y^私=g−1(∑m=1Mwmη私m)\hat{Y}_i = g^{-1}\Big(\sum_{m=1}^M{w_m \eta_i^m}\Big) 上記の#2を使用したモデル平均予測 MMM Y^私= ∑m = 1Mwmg− 1(ηm私)Y^私=∑m=1Mwmg−1(η私m)\hat{Y}_i = \sum_{m=1}^M{w_m g^{-1}(\eta_i^m}) モデル平均化のいくつかのベイジアンおよびフリークエンティスト法は次のとおりです。 Hoeting、JA、Madigan、D.、AE、Raftery、およびVolinsky、CT、1999年。ベイジアンモデル平均化:チュートリアル。統計科学、pp.382-401。 Burnham、KPおよびAnderson、DR、2003。モデル選択とマルチモデル推論:実用的な情報理論的アプローチ。スプリンガーサイエンス&ビジネスメディア。 Hansen、BE、2007。最小二乗モデルの平均化。計量経済学、75(4)、pp.1175-1189。 Claeskens、G. and Hjort、NL、2008。モデル選択とモデル平均化。ケンブリッジブックス。 Rパッケージには、BMA、MuMIn、BAS、およびAICcmodavgが含まれますます。(注:これは、より一般的なモデル平均化の知恵についての質問ではありません。)

2
GLMおよびGAMのスプライン
スプラインがGLMモデルではなくGAMモデルでのみ利用できるのは間違っていますか?私はこれをしばらく前に聞いたが、これは単なる誤解なのか、それとも何らかの真実があるのだろうか。これがイラストです:

1
GLMのMLEを見つけるためのIRLSメソッドの簡単で直感的な説明を提供できますか?
バックグラウンド: GLMのMLE推定に関するプリンストンのレビューをフォローしようとしています。 私はMLE推定の基礎を理解:likelihood、score、観察し、期待Fisher informationとFisher scoring技術。そして、私はMLE推定で単純な線形回帰を正当化する方法を知っています。 質問: このメソッドの最初の行すら理解できません:( 次のように定義された作業変数の背後にある直観は何ですか?ziz私z_i zi=η^i+(yi−μ^i)dηidμizi=η^i+(yi−μ^i)dηidμi z_i = \hat\eta_i + (y_i -\hat\mu_i)\frac{d\eta_i}{d\mu_i} なぜβを推定するために代わりに使用されるのですか?yiyiy_iββ\beta そしてresponse/link function、とμの間の接続であるとの関係は何ですかηη\etaμμ\mu 誰もが簡単な説明をしているか、これについてより基本的なレベルのテキストに私を導くことができるならば、私は感謝するでしょう。

2
2サンプルの比率検定にlmを使用する
私はしばらくの間、線形モデルを使用して2サンプルの比率テストを実行していましたが、完全に正しいとは限りません。一般化線形モデルと二項族+同一性リンクを使用すると、プールされていない2サンプル比率検定結果が正確に得られるようです。ただし、線形モデル(またはガウスファミリのglm)を使用すると、わずかに異なる結果が得られます。これは、Rが2項対ガウスの家族のglmをどのように解くかによるのかもしれませんが、別の原因があるのでしょうか? ## prop.test gives pooled 2-sample proportion result ## glm w/ binomial family gives unpooled 2-sample proportion result ## lm and glm w/ gaussian family give unknown result library(dplyr) library(broom) set.seed(12345) ## set up dataframe ------------------------- n_A <- 5000 n_B <- 5000 outcome <- rbinom( n = n_A + n_B, …

4
glmerでのランダム効果の分散の解釈
データが二項分布である受粉に関する論文を改訂しています(果実は成熟するかしないか)。そのためglmer、1つのランダム効果(個々の植物)と1つの固定効果(治療)を使用しました。レビューアーは、植物が結実に影響を与えたかどうかを知りたいのですが、glmer結果の解釈に問題があります。 私はウェブを読んでみましたが、直接比較glmとglmerモデルに問題がある可能性があるので、私はそれをしていません。この質問に答える最も簡単な方法は、変量効果の分散(1.449、以下)を総分散、または処理によって説明される分散と比較することだと考えました。しかし、これらの他の分散をどのように計算しますか?以下の出力には含まれていないようです。二項glmer分布に含まれない残差分散について何かを読みました-ランダム効果の相対的な重要性をどのように解釈しますか? > summary(exclusionM_stem) Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) [glmerMod] Family: binomial ( logit ) Formula: cbind(Fruit_1, Fruit_0) ~ Treatment + (1 | PlantID) AIC BIC logLik deviance df.resid 125.9 131.5 -59.0 117.9 26 Scaled residuals: Min 1Q Median 3Q Max -2.0793 -0.8021 -0.0603 0.6544 …

2
行増強を使用してリッジがペナルティーを課したGLM?
リッジ回帰は、元のデータ行列にデータの行を追加するだけで達成できることを読みました。各行は、従属変数に0 、独立変数にkkk平方根またはゼロを使用して構築されます。次に、独立変数ごとに1行追加されます。 ロジスティック回帰や他のGLMを含め、すべての場合に証拠を導き出すことが可能かどうか疑問に思っていました。

1
オフセットを伴うポアソンランダム効果モデルの過剰分散とモデリングの代替
被験者内実験を使用した実験研究からのカウントデータをモデル化する際に、多くの実際的な質問に遭遇しました。実験、データ、およびこれまでに行ったことを簡単に説明した後、質問をします。 回答者のサンプルに対して、4つの異なる映画が順番に表示されました。各映画の後にインタビューが行われ、RQ(予測カウント変数)に関係する特定のステートメントの出現回数をカウントしました。また、発生する可能性のある最大数(コーディング単位、オフセット変数)も記録しました。さらに、映画のいくつかの特徴が連続的な尺度で測定され、そのうちの1つは、映画の特徴がステートメントの数に与える影響の因果仮説があり、他は制御(予測)です。 これまでに採用されたモデリング戦略は次のとおりです。 因果変数を共変量として使用し、他の変数を制御共変量として使用するランダム効果ポアソンモデルを推定します。このモデルには、 'log(units)'(コーディング単位)に等しいオフセットがあります。ランダム効果は被験者全体で取得されます(映画固有のカウントは被験者にネストされます)。因果仮説が確認されました(因果変数の係数)。推定では、Rのlme4パッケージ、特に関数glmerを使用しました。 今、私は次の質問をしています。ポアソン回帰の一般的な問題は、過剰分散です。これは、負の二項回帰を使用し、その分散パラメーターが単純なポアソンモデルのモデルフィットを改善するかどうかを評価することでテストできることを知っています。ただし、ランダム効果のコンテキストでこれを行う方法はわかりません。 自分の状況で過分散をテストするにはどうすればよいですか?適合方法を知っている単純なポアソン/負の二項回帰(ランダム効果なし)で過分散をテストしました。テストでは、過剰分散の存在が示唆されています。ただし、これらのモデルではクラスタリングが考慮されていないため、このテストは正しくないと思われます。また、過分散のテストに対するオフセットの役割についてもわかりません。 負の二項ランダム効果回帰モデルのようなものがあり、それをRにどのように適合させる必要がありますか? データを試してみるべき代替モデルの提案がありますか?つまり、反復測定構造、カウント変数、および露出(コーディング単位)を考慮に入れていますか?

1
Rの回帰スプラインを使用したロジスティック回帰
私は、英国の頭部外傷の全国外傷データベースからの遡及データに基づいてロジスティック回帰モデルを開発しています。主要な結果は30日間の死亡率です(「生存率」指標として示されます)。以前の研究の結果に対する有意な効果の公表された証拠を持つ他の測定には、以下が含まれます: Year - Year of procedure = 1994-2013 Age - Age of patient = 16.0-101.5 ISS - Injury Severity Score = 0-75 Sex - Gender of patient = Male or Female inctoCran - Time from head injury to craniotomy in minutes = 0-2880 (After 2880 minutes is defined as a …

5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
一般化線形モデルでの正規性の残差の確認
このホワイトペーパーでは、一般化線形モデル(二項および負の二項誤差分布の両方)を使用してデータを分析します。しかし、メソッドの統計分析セクションには、次のステートメントがあります。 ... 2つ目は、ロジスティック回帰モデルを使用してプレゼンスデータをモデリングし、一般化線形モデル(GLM)を使用して採餌時間データをモデリングすることです。対数リンク関数を伴う負の二項分布を使用して、採餌時間データをモデル化し(Welsh et al。1996)、モデルの妥当性を残基の検査により検証しました(McCullagh&Nelder 1989)。Shapiro–WilkまたはKolmogorov–Smirnov検定を使用して、標本サイズに応じて正規性を検定しました。データは分析の前にログ変換され、正常に準拠しました。 彼らが二項および負の二項誤差分布を仮定する場合、確実に残差の正規性をチェックするべきではありませんか?

1
ログリンクされたガンマGLM対ログリンクされたガウスGLM対ログ変換されたLM
私の結果から、GLM Gammaはほとんどの仮定を満たしているように見えますが、ログ変換されたLMよりも価値のある改善でしょうか?私が見つけたほとんどの文献は、ポアソンまたは二項GLMを扱っています。ランダム化を使用した一般化線形モデルの仮定の評価の記事は非常に有用であることがわかりましたが、意思決定に使用される実際のプロットが欠けています。うまくいけば、経験のある人が私を正しい方向に向けることができます。 応答変数Tの分布をモデル化したいのですが、その分布を下にプロットします。ご覧のとおり、正の歪度です 。 考慮すべき2つのカテゴリー要因があります:METHとCASEPART。 この研究は主に探索的であり、モデルを理論化してその周辺でDoEを実行する前のパイロット研究として本質的に機能することに注意してください。 Rには次のモデルと診断プロットがあります。 LM.LOG<-lm(log10(T)~factor(METH)+factor(CASEPART),data=tdat) GLM.GAMMA<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="Gamma"(link='log')) GLM.GAUS<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="gaussian"(link='log')) また、Shapiro-Wilksの残差検定を使用して、次のP値を達成しました。 LM.LOG: 2.347e-11 GLM.GAMMA: 0.6288 GLM.GAUS: 0.6288 AICとBICの値を計算しましたが、正しい場合は、GLM / LMのさまざまなファミリーのために、あまりわかりません。 また、極端な値に注意しましたが、明確な「特別な原因」がないため、それらを外れ値として分類することはできません。

1
多重共線性とスプライン回帰に問題はありますか?
自然(制限付き)3次スプラインを使用する場合、作成される基底関数は非常に共線的であり、回帰で使用すると、非常に高いVIF(分散インフレーション係数)統計を生成し、多重共線性を示します。予測のためにモデルのケースを検討している場合、これは問題ですか?スプライン構造の性質により、常にそうなるようです。 Rの例を次に示します。 library(caret) library(Hmisc) library(car) data(GermanCredit) spl_mat<-rcspline.eval(GermanCredit$Amount, nk=5, inclx=TRUE) #natural cubic splines with 5 knots class<-ifelse(GermanCredit$Class=='Bad',1,0) #binary target variable dat<-data.frame(cbind(spl_mat,class)) cor(spl_mat) OUTPUT: x x 1.0000000 0.9386463 0.9270723 0.9109491 0.9386463 1.0000000 0.9994380 0.9969515 0.9270723 0.9994380 1.0000000 0.9989905 0.9109491 0.9969515 0.9989905 1.0000000 mod<-glm(class~.,data=dat,family=binomial()) #model vif(mod) #massively high OUTPUT: x V2 V3 V4 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.