タグ付けされた質問 「generalized-linear-model」

「リンク関数」を介して非線形関係を可能にし、応答の分散を予測値に依存させることができる線形回帰の一般化。(通常の線形モデルを一般的な共分散構造と多変量応答に拡張する「一般線形モデル」と混同しないでください。)

2
glmアルゴリズムを使用して多項ロジスティック回帰を実行できますか?
私は自分のプロジェクトの統計分析にspotfire(S ++)を使用しており、大きなデータセットに対して多項ロジスティック回帰を実行する必要があります。最良のアルゴリズムはmlogitでしたが、残念ながらs ++では使用できません。ただし、この回帰にはglmアルゴリズムを使用するオプションがあります。ここで2つのことを明確にしたいと思います。 1. glmは多項ロジスティック回帰を実行するためにも使用できるという私の理解は正しいですか? 前の質問に対する答えが「はい」の場合、glm algoで使用するパラメーターは何ですか? おかげで、

3
GLMでは、飽和モデルの対数尤度は常にゼロですか?
一般化線形モデルの出力の一部として、ヌルと残差偏差を使用してモデルを評価します。飽和モデルの対数尤度で表されるこれらの量の式をよく見ます。たとえば、https://stats.stackexchange.com/a/113022/22199、ロジスティック回帰:飽和モデルを取得する方法 私が理解する限り、飽和モデルは観測された応答に完全に適合するモデルです。したがって、私が見たほとんどの場所で、飽和モデルの対数尤度は常にゼロとして与えられます。 しかし、逸脱の公式が与えられる方法は、この量がゼロでない場合があることを示唆しています。(常にゼロであるかのように、なぜそれを含めるのが面倒ですか?) どのような場合にゼロ以外になる可能性がありますか?決してゼロ以外ではない場合、なぜ逸脱の式に含めるのですか?

2
ポアソンGLM結果のパラメーター推定値の解釈方法[終了]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新して、相互検証のトピックになるようにします。 5年前に閉鎖されました。 Call: glm(formula = darters ~ river + pH + temp, family = poisson, data = darterData) Deviance Residuals: Min 1Q Median 3Q Max -3.7422 -1.0257 0.0027 0.7169 3.5347 Coefficients: Estimate Std.Error z value Pr(>|z|) (Intercept) 3.144257 0.218646 14.381 < 2e-16 *** riverWatauga -0.049016 0.051548 -0.951 0.34166 …

1
ポアソン回帰にはエラー用語がありますか?
ポアソン回帰にエラー項があるかどうか疑問に思っていましたか?ポアソン回帰には、ランダム効果と誤差項がありますか?私はこの点について混乱しています。ロジスティック回帰では、結果変数がバイナリであるため、エラー用語はありません。それは残差項を持たない唯一のglmモデルですか?

1
一般化線形モデルの仮定
単一の応答変数(連続/正規分布)と4つの説明変数(3つは因子で、4つ目は整数)を使用して、一般化線形モデルを作成しました。アイデンティティリンク関数でガウス誤差分布を使用しました。現在、モデルが一般化線形モデルの仮定を満たしていることを確認しています: Yの独立 正しいリンク機能 説明変数の正しい尺度 影響のある観測はありません 私の質問は、モデルがこれらの仮定を満たしていることをどのように確認できますか?最良の出発点は、各説明変数に対して応答変数をプロットすることです。ただし、説明変数のうち3つはカテゴリ(1〜4レベル)であるため、プロットで何を探す必要がありますか? また、説明変数間の多重共線性と相互作用をチェックする必要がありますか?はいの場合、カテゴリー説明変数を使用してこれを行うにはどうすればよいですか?

1
カテゴリカルデータを使用した負の二項GLMからの.L&.Q出力の解釈
私は負の二項GLMを実行しただけで、これが出力です。 Call: glm.nb(formula = small ~ method + site + depth, data = size.dat, init.theta = 1.080668549, link = log) Deviance Residuals: Min 1Q Median 3Q Max -2.2452 -0.9973 -0.3028 0.3864 1.8727 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.6954 0.1152 14.720 < 2e-16 *** method.L -0.6828 0.1637 -4.171 …

3
GAMとGLMを使用する場合
これは潜在的に広範な質問かもしれませんが、GLM(一般化線形モデル)よりもGAM(一般化加算モデル)の使用を示す一般化可能な仮定があるかどうか疑問に思っていましたか? 最近、誰かがデータ構造を「加算的」であると仮定した場合にのみGAMを使用すべきだと教えてくれました。つまり、xを追加してyを予測すると予想しています。別の人は、GAMはGLMとは異なるタイプの回帰分析を行い、直線性を仮定できる場合はGLMが好ましいと指摘しました。 過去に、生態学的データにGAMを使用してきました。たとえば: 連続時系列 データが線形形状を持たなかったとき yを予測するために複数のxがあり、「表面プロット」と統計テストを使用して視覚化できる非線形相互作用があると考えました 私は明らかに、GAMがGLMとどのように異なるのかをよく理解していません。私はそれが有効な統計的テストであると信じています(少なくとも生態系ジャーナルではGAMの使用が増加していると思います)が、その使用が他の回帰分析よりも示されている場合、よりよく知る必要があります。

3
テストスコアは本当に正規分布に従っていますか?
GLMでどのディストリビューションを使用するかを学習しようとしており、通常のディストリビューションを使用するタイミングについて少し混乱しています。私の教科書の一部では、正規分布は試験の得点をモデル化するのに適していると言っています。次のパートでは、自動車保険の請求をモデル化するのにどのような配分が適切かを尋ねます。今回は、正の値のみで連続しているため、適切な分布はガンマまたは逆ガウスになると述べました。まあ、試験の得点も正の値のみで連続するので、なぜそこに正規分布を使用するのでしょうか?正規分布は負の値を許可しませんか?

1
ロジスティック回帰と分数応答回帰の違いは何ですか?
私の知る限り、ロジスティックモデルと分数応答モデル(frm)の違いは、frmが[0,1]であるがロジスティックが{0、1}である従属変数(Y)であるということです。さらに、frmは準尤度推定器を使用してそのパラメーターを決定します。 通常、を使用glmしてロジスティックモデルを取得できますglm(y ~ x1+x2, data = dat, family = binomial(logit))。 frmの場合、に変更family = binomial(logit)しfamily = quasibinomial(logit)ます。 family = binomial(logit)同じ推定値が得られるため、frmのパラメーターの取得にも使用できることに気付きました。次の例をご覧ください library(foreign) mydata <- read.dta("k401.dta") glm.bin <- glm(prate ~ mrate + age + sole + totemp, data = mydata ,family = binomial('logit')) summary(glm.bin) 戻り、 Call: glm(formula = prate ~ mrate + age + …

2
R:family =“ binomial”および“ weight”仕様のglm関数
family = "binomial"を使用してglmで体重がどのように機能するか、非常に混乱しています。私の理解では、family = "binomial"のglmの可能性は次のように指定されます f(y)=(nny)pny(1−p)n(1−y)=exp(n[ylogp1−p−(−log(1−p))]+log(nny))f(y)=(nny)pny(1−p)n(1−y)=exp⁡(n[ylog⁡p1−p−(−log⁡(1−p))]+log⁡(nny)) f(y) = {n\choose{ny}} p^{ny} (1-p)^{n(1-y)} = \exp \left(n \left[ y \log \frac{p}{1-p} - \left(-\log (1-p)\right) \right] + \log {n \choose ny}\right) ここで、yyyは「観察された成功の割合」であり、nnnは既知の試行回数です。 私の理解では、成功の確率pppは、ような線形係数とfamily = "binomial"のglm関数でパラメーター化されます: 次に、この最適化問題は次のように簡略化できます。ββ\betap=p(β)p=p(β)p=p(\beta)argmaxβ∑ilogf(yi).argmaxβ∑ilog⁡f(yi). \textrm{arg}\max_{\beta} \sum_i \log f(y_i). argmaxβ∑ilogf(yi)=argmaxβ∑ini[yilogp(β)1−p(β)−(−log(1−p(β)))]+log(niniyi)=argmaxβ∑ini[yilogp(β)1−p(β)−(−log(1−p(β)))]argmaxβ∑ilog⁡f(yi)=argmaxβ∑ini[yilog⁡p(β)1−p(β)−(−log⁡(1−p(β)))]+log⁡(niniyi)=argmaxβ∑ini[yilog⁡p(β)1−p(β)−(−log⁡(1−p(β)))] \textrm{arg}\max_{\beta} \sum_i \log f(y_i)= \textrm{arg}\max_{\beta} \sum_i n_i \left[ y_i \log \frac{p(\beta)}{1-p(\beta)} - \left(-\log …

2
summary.glm()の分散
私はglm.nbを実施しました glm1<-glm.nb(x~factor(group)) groupはカテゴリーで、xは計量変数です。結果の概要を取得しようとすると、summary()またはを使用するかどうかによって、わずかに異なる結果が得られsummary.glmます。summary(glm1)私にくれます ... Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.1044 0.1519 0.687 0.4921 factor(gruppe)2 0.1580 0.2117 0.746 0.4555 factor(gruppe)3 0.3531 0.2085 1.693 0.0904 . --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for Negative Binomial(0.7109) family taken to …

1
一般化線形モデルの偏差に対する線形モデルのR二乗?
この質問に対する私のコンテキストは次のとおりです。私が知ることができることから、加重データとsurveyパッケージを使用する場合、Rで通常の最小二乗回帰を実行することはできません。ここではsvyglm()、代わりに一般化線形モデルを実行するを使用する必要があります(これは同じものかもしれません。ここでは、何が違うのかという点であいまいです)。 OLS lm()では、関数を使用してRの2乗値を計算しますが、その解釈は理解できます。しかし、svyglm()これを計算していないようで、代わりに偏差を与えます。これは、インターネットを巡回する短い旅行で、Rの2乗とは異なる解釈の適合度の尺度であるとわかります。 だから私は基本的に、何らかの方向性を得ることを望んでいた2つの質問があると思います: surveyパッケージでOLSを実行できないのはなぜですか。これは、Stataで重み付けされたデータを使用して実行できるように思われますか? 一般化線形モデルの逸脱とr二乗値の解釈の違いは何ですか?

1
ロジスティック回帰からの予測を理解する
ロジスティック回帰モデル(Rのglm)からの予測は、予想どおり0と1の間に制限されていません。ロジスティック回帰の私の理解は、入力パラメーターとモデルパラメーターが線形に組み合わされ、ロジットリンク関数を使用して応答が確率に変換されることです。ロジット関数は0と1の間に制限されているため、予測は0と1の間に制限されると予想しました。 ただし、Rでロジスティック回帰を実装すると、これは見られません。 data(iris) iris.sub <- subset(iris, Species%in%c("versicolor","virginica")) model <- glm(Species ~ Sepal.Length + Sepal.Width, data = iris.sub, family = binomial(link = "logit")) hist(predict(model)) どちらかといえば、predict(model)の出力は私には正常に見えます。誰かが私が得る値が確率ではない理由を私に説明できますか?

1
比率を分析するための手法
比率とレートの分析に関するアドバイスとコメントを探しています。私が仕事をしている分野では、特に比率の分析が広まっていますが、これが問題になる可能性があることを示唆するいくつかの論文を読みました。 Kronmal、Richard A.1993。スプリアス相関と比率標準の誤りを再検討。Journal of the Royal Statistical SocietyシリーズA 156(3):379-392 および関連論文。私がこれまでに読んだことから、比率は偽の相関を生成し、原点を通る回帰直線を強制し(これは常に適切ではない)、それらをモデリングすると正しく行われないと限界の原則に違反する可能性があります(リチャード・ゴールドスタインによる比率の使用))。ただし、比率の使用が正当化される機会がなければならず、このトピックに関して統計学者からの意見が必要でした。

2
GLMのファミリーは、応答変数または残差の分布を表しますか?
私はこれについていくつかの研究室のメンバーと議論してきました、そして私たちはいくつかの情報源に行きましたが、まだ答えがありません: GLMにポアソンのファミリーがあると言うとき、残差の分布または応答変数について話していますか? 競合のポイント この記事を読むと、GLMの仮定は、観測の統計的独立性、リンクと分散関数の正しい仕様(応答変数ではなく残差について考えるようになる)、応答変数の正しい測定スケールであると述べています。単一ポイントの過度の影響の欠如 この質問には、それぞれ2つのポイントを持つ2つの答えがあります。最初に表示されるのは残差について、2番目は応答変数についてです。 このブログ投稿では、仮定について話しているときに、「残差の分布は他のもの、たとえば二項分布である可能性がある」と述べています。 この章の冒頭で、彼らはエラーの構造はポアソンでなければならないが、残差は確かに正と負の値を持っていると言います。どうしてポアソンになりますか? この質問は、複製するためにこのような質問でよく引用されますが、受け入れられた答えはありません この質問の答えは、残差ではなく応答について語っています で、この Pensilvaniaの大学からのコースの説明彼らは仮定ではなく、残差に応答変数について話します

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.