タグ付けされた質問 「generalized-linear-model」

「リンク関数」を介して非線形関係を可能にし、応答の分散を予測値に依存させることができる線形回帰の一般化。(通常の線形モデルを一般的な共分散構造と多変量応答に拡張する「一般線形モデル」と混同しないでください。)

2
GLMが変換された変数を持つLMと異なる理由
このコースの配布資料(ページ1)で説明されているように、線形モデルは次の形式で記述できます。 y=β1x1+⋯+βpxp+εi,y=β1x1+⋯+βpxp+εi, y = \beta_1 x_{1} + \cdots + \beta_p x_{p} + \varepsilon_i, ここで、yyyは応答変数、 xixix_{i}はithithi^{th}説明変数です。 多くの場合、テストの前提を満たす目的で、応答変数を変換できます。たとえば、各yiyiy_i対数関数を適用します。応答変数の変換は、GLMの実行と同等ではありません。 GLMは、次の形式で記述できます(コースの配布資料(3ページ)から) g(u)=β1x1+⋯+βpxp+εi,g(u)=β1x1+⋯+βpxp+εi, g(u) = \beta_1 x_{1} + \cdots + \beta_p x_{p} + \varepsilon_i, ここで、は単なる別の記号であり、コースの配布資料の2ページから理解できます。はリンク関数と呼ばれます。uuuyyyg()g()g() コース内のスライドから変換された変数を使用したGLMとLMの違いを本当に理解していません。それで私を助けてもらえますか?

1
GLMの対数尤度は、グローバルな最大値への収束を保証していますか?
私の質問は: 一般化線形モデル(GLM)は、グローバルな最大値に収束することが保証されていますか?もしそうなら、なぜですか? さらに、凸性を保証するためのリンク関数にはどのような制約がありますか? GLMについての私の理解は、それらが高度に非線形な尤度関数を最大化するということです。したがって、いくつかの極大値があり、収束するパラメーターセットは最適化アルゴリズムの初期条件に依存すると想像します。しかし、いくつかの研究を行った後、複数の局所的最大値があることを示す単一の情報源は見つかりませんでした。さらに、私は最適化手法にあまり精通していませんが、ニュートンラプソン法とIRLSアルゴリズムは極大になりやすいことを知っています。 可能であれば、直感的かつ数学的に説明してください! 編集:dksahujiは私の元の質問に答えましたが、上記の追加の質問[ 2 ] を追加したいと思います。(「凸性を保証するためのリンク関数にはどのような制約がありますか?」)


3
統計的背景のない人々に一般化線形モデルをどのように説明しますか?
私は、統計的背景のない聴衆に統計的手法を説明するのにいつも苦労しています。そのような聴衆にGLMが何であるかを説明したい場合(統計的な専門用語を捨てずに)、最良または最も効果的な方法は何でしょうか? 私は通常、3つの部分でGLMを説明します-(1)応答変数であるランダム成分、(2)線形予測子である系統的成分、および(3)接続の「鍵」であるリンク関数(1)および(2)。次に、線形回帰またはロジスティック回帰の例を示し、応答変数に基づいてリンク関数がどのように選択されるかを説明します。したがって、2つのコンポーネントを接続するキーとして機能します。

2
GLMの分散テストは実際に*有用*ですか?
GLMの「過剰分散」の現象は、応答変数の分散を制限するモデルを使用するたびに発生し、データはモデルの制限が許容するよりも大きな分散を示します。これは、ポアソンGLMを使用してカウントデータをモデル化するときによく発生し、よく知られたテストで診断できます。過剰分散の統計的に有意な証拠があることがテストで示された場合、通常、元のモデルで発生する制限から分散パラメーターを解放するより広範な分布ファミリーを使用してモデルを一般化します。ポアソンGLMの場合、負の二項または準ポアソンGLMのいずれかに一般化するのが一般的です。 この状況には明らかな異議があります。なぜポアソンGLMから始めるのですか?(比較的)自由な分散パラメーターを持つより広い分布形式から直接始めて、分散パラメーターをデータに適合させ、過剰分散テストを完全に無視することができます。データ分析を行う他の状況では、少なくとも最初の2モーメントの自由度を許可する分布形式をほぼ常に使用しますが、なぜここで例外を設けるのですか? 私の質問:分散を修正する分布(ポアソン分布など)から始めて、過剰分散テストを実行する正当な理由はありますか?この手順は、この演習を完全にスキップして、より一般的なモデル(たとえば、負の二項分布、準ポアソンなど)に直接進むことと比較してどうですか?言い換えれば、なぜ自由分散パラメーターを持つ分布を常に使用しないのですか?

3
単純なカイ二乗検定の代わりとしてglm()を使用する
glm()R を使用して帰無仮説を変更することに興味があります。 例えば: x = rbinom(100, 1, .7) summary(glm(x ~ 1, family = "binomial")) という仮説をテストします。nullを =何らかの任意の値に変更したい場合はどうすればよいですか? p=0.5p=0.5p = 0.5pppglm() これはprop.test()and でも実行できることはわかっていますが、カテゴリデータに関連するすべての仮説をテストchisq.test()するために使用glm()するアイデアを探求したいと思います。

4
勾配ブースティングマシンの精度は、反復回数が増えると低下します
caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。 小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

2
共分散構造の指定:長所と短所
GLMで共分散構造を指定することの利点は何ですか(共分散行列のすべての非対角成分をゼロとして扱うのではなく)?データについて知っていることを反映するだけでなく、 適合度を改善しますか? 保留データの予測精度を改善しますか? 共分散の程度を推定できるようにしますか? 共分散構造を課すコストはいくらですか?やる 推定アルゴリズムに計算上の複雑さを追加しますか? 推定パラメータの数を増やし、AIC、BIC、DICも増やしますか? 正しい共分散構造を経験的に決定することは可能ですか、それともデータ生成プロセスに関する知識に依存するものですか? 私が言及しなかった費用/利益はありますか?

3
ゼロで凝集する非負データのモデル(Tweedie GLM、ゼロで膨張したGLMなど)は正確なゼロを予測できますか?
Tweedie分布は、パラメーター(平均分散関係の指数)が1〜2の場合、点質量がゼロの歪んだデータをモデル化できます。ppp 同様に、ゼロで膨らんだ(そうでなければ連続的または離散的)モデルは、多数のゼロを持つ場合があります。 これらの種類のモデルを使用して予測または近似値を計算すると、予測値がすべてゼロ以外になるのはなぜなのか理解できません。 これらのモデルは実際に正確なゼロを予測できますか? 例えば library(tweedie) library(statmod) # generate data y <- rtweedie( 100, xi=1.3, mu=1, phi=1) # xi=p x <- y+rnorm( length(y), 0, 0.2) # estimate p out <- tweedie.profile( y~1, p.vec=seq(1.1, 1.9, length=9)) # fit glm fit <- glm( y ~ x, family=tweedie(var.power=out$p.max, link.power=0)) # predict pred <- …

2
Rの「係数:14特異点のために定義されていません」などのエラーを処理するにはどうすればよいですか?
GLMを実行して、anovaの出力で「特異点のために定義されていない」エラーが発生した場合、このエラーの発生をどのように防ぐことができますか? 共変量間の共線性によるか、データセットにレベルの1つが存在しないことを示唆する人もいます(lmの「特異点のために定義されていない」の解釈を参照) 私はこれは「特定の治療法は、」モデルを推進して見てみたかったと私は治療の4つのレベルがある場合:Treat 1、Treat 2、Treat 3&Treat 4、として私のスプレッドシートに記録されていますとき、Treat 1残りの1であるゼロで、ときTreat 2ゼロである残りの1です、など、私は何をしなければなりませんか?

2
線形回帰には残差に関する仮定があるのに、一般化線形モデルには応答に関する仮定があるのはなぜですか?
線形回帰と一般化モデルに一貫性のない仮定があるのはなぜですか? 線形回帰では、残差がガウス型になると仮定します 他の回帰(ロジスティック回帰、ポイズン回帰)では、応答が何らかの分布(二項分布、ポアソンなど)から生じると想定しています。 なぜ残余を想定し、他の時間は応答を想定するのですか?異なるプロパティを導出したいからですか? 編集:mark999は2つの形式が等しいことを示していると思います。しかし、私はiidに関してもう1つの疑問を持っています。 私の他の 質問、ロジスティック回帰にiidの仮定はありますか?一般化線形モデルにiidの仮定がないことを示します(独立していますが同一ではありません) 線形回帰の場合、残差に仮定を設定するとiidが得られますが、応答に仮定を設定すると、独立ではあるが同一ではないサンプル(異なる異なるガウス)になりますか?μμ\mu

1
1つの観測値のみのランダム効果は、一般化線形混合モデルにどのように影響しますか?
ランダム効果として使用したい変数がいくつかのレベルで単一の観測値を持つデータセットがあります。以前の質問への回答に基づいて、原則としてこれで問題ないことをまとめました。 混合モデルを、観測値が1つだけの被験者に適合させることはできますか? ランダム切片モデル-被験者ごとに1つの測定 ただし、2番目のリンクでは、最初の答えは次のとおりです。 「...一般的な線形混合モデルGLMMを使用していないと仮定します。この場合、過剰分散の問題が発生します」 GLMMの使用を検討していますが、1回の観測でのランダムな効果レベルがモデルにどのように影響するかを本当に理解していません。 ここに、私が当てはめようとしているモデルの1つの例を示します。私は鳥を研究していますが、移動中のストップの数に対する人口と季節の影響をモデル化したいと思います。一部の個人では最大5年間のデータがあるため、個人をランダム効果として使用したいと思います。 library(dplyr) library(lme4) pop <- as.character(c("BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "NU", "NU", "NU", …

2
GLM:配布およびリンク機能の選択の検証
ガウス分布と対数リンク関数を採用した一般化線形モデルがあります。モデルをフィッティングした後、残差をチェックします:QQプロット、残差対予測値、残差のヒストグラム(十分な注意が必要であることを認める)。すべてがよさそうだ。これは、(私にとって)ガウス分布の選択が非常に合理的だったことを示唆しているようです。または、少なくとも、残差がモデルで使用した分布と一致していること。 Q1:配布の選択を検証することを述べるのは遠すぎますか? 応答変数は常に正であるため、ログリンク関数を選択しましたが、それが適切な選択であることを何らかの確認が必要です。 Q2:リンク関数の選択をサポートできる、分布の選択の残差をチェックするようなテストはありますか?(リンク関数を選択することは、私には少しarbitrary意的であると思われます。私が見つけることができる唯一のガイドラインは、おそらく正当な理由のために、非常に曖昧で手ぶれです。)

6
独立変数としてアクティビティに費やされた時間
線形モデルの独立変数として、何かをするのに費やした時間(たとえば、数週間の母乳育児)を含めたいと思います。ただし、一部の観察結果は動作にまったく関与しません。0を0としてコーディングするのは正しくありません。0は0を超える値とは質的に異なるためです(つまり、母乳育児をしない女性は、そうする女性と、非常に長い間それを行わない女性とでは大きく異なる場合があります)。私が思いつくのは、費やした時間を分類するダミーのセットですが、これは貴重な情報の無駄です。ゼロ膨張ポアソンのようなものも可能性のように思えますが、この文脈でどのように見えるかを正確に理解することはできません。誰か提案はありますか?

2
カウントデータを独立変数として使用すると、GLMの前提に違反しますか?
ロジスティック回帰モデルをあてはめながら、共変量としてカウントデータを使用したいと思います。私の質問は: カウント、非負の整数変数を独立変数として採用することにより、ロジスティック(および、より一般的には、一般化された線形)モデルの仮定に違反しますか? 文献では、結果としてホットカウントデータを使用することに関する多くの参考文献を見つけましたが、共変量としてではありません。たとえば、非常に明確な論文を参照してください:「NE Breslow(1996)Generalized Linear Models:Checking Assumptions and Strengthening Conslusions、Congresso Nazionale Societa Italiana di Biometria、Cortona June 1995」、http://biostat.georgiahealth.edu/~dryuで入手可能 /course/stat9110spring12/land16_ref.pdf。 大まかに言うと、glmの仮定は次のように表現されるようです。 iid残差; リンク関数は、従属変数と独立変数の間の関係を正しく表す必要があります。 外れ値の欠如 カウント共変量を扱うために他のタイプのモデルを使用することを示唆する他の仮定/技術的な問題が存在するかどうか誰もが知っていますか? 最後に、私のデータには比較的少ないサンプル(<100)が含まれており、カウント変数の範囲は3から4桁以内で変化することに注意してください(つまり、一部の変数の値は0から10の範囲ですが、他の変数の値は0-10000)。 簡単なRのサンプルコードを次に示します。 \########################################################### \#generating simulated data var1 <- sample(0:10, 100, replace = TRUE); var2 <- sample(0:1000, 100, replace = TRUE); var3 <- sample(0:100000, 100, replace = TRUE); …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.