タグ付けされた質問 「generalized-linear-model」

「リンク関数」を介して非線形関係を可能にし、応答の分散を予測値に依存させることができる線形回帰の一般化。(通常の線形モデルを一般的な共分散構造と多変量応答に拡張する「一般線形モデル」と混同しないでください。)

2
glmを実行しているときのエラー「システムは計算上特異」
glm推定を実行するために、robustbaseパッケージを使用しています。しかし、それを行うと、次のエラーが表示されます。 Error in solve.default(crossprod(X, DiagB * X)/nobs, EEq) : system is computationally singular: reciprocal condition number = 1.66807e-16 これはどういう意味ですか?そして、どうすればデバッグできますか? PS。答えるために何か(式/仕様またはデータ)が必要な場合は、喜んで提供します。

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

4
GLMの疑似R 2乗式
擬似公式は、Rによる線形モデルの拡張、Julian J. Faraway(p。59)の本で見つけました。R2R2R^2 1−ResidualDevianceNullDeviance1−ResidualDevianceNullDeviance1-\frac{\text{ResidualDeviance}}{\text{NullDeviance}}。 これはGLMの疑似一般的な式ですか?R2R2R^2

1
一般化推定方程式とGLMMの違いは何ですか?
ロジットリンクを使用して、3レベルの不均衡データでGEEを実行しています。これは、混合効果(GLMM)とロジットリンクを備えたGLMと(描画できる結論と係数の意味に関して)どのように異なりますか? 詳細:観察は単一ベルヌーイ試験です。それらは教室と学校にクラスター化されます。Rの使用。NAのケースワイズ省略。6予測子も相互作用項。 (私は子供たちがヘッズアップで着地するかどうかを確認するためにひっくり返していません。) 係数をオッズ比に累乗する傾向があります。これは両方で同じ意味を持っていますか? GEEモデルの「限界的手段」について、私の心の奥に何かが潜んでいます。私にそのビットを説明する必要があります。 ありがとう。

3
ベータ/ディリクレ回帰が一般化線形モデルと見なされないのはなぜですか?
前提は、Rパッケージbetareg1のビネットからのこの引用です。 さらに、モデルはいくつかのプロパティ(線形予測子、リンク関数、分散パラメーターなど)を一般化線形モデル(GLM、McCullaghおよびNelder 1989)と共有しますが、このフレームワークの特殊なケースではありません(固定分散ではありません) ) この答えは、事実を暗示しています。 [...]これは、応答変数がベータとして配布される場合に適したタイプの回帰モデルです。一般化線形モデルに類似していると考えることができます 。それはまさにあなたが探しているものです[...](私の強調) 質問のタイトルはそれをすべて言っています:なぜベータ/ディリクレ回帰は一般化線形モデルと見なされないのですか? 私の知る限り、一般化線形モデルは、独立変数を条件とする従属変数の期待に基づいて構築されたモデルを定義します。 fffは期待値をマップするリンク関数、は確率分布、は結果、は予測子、\ betaは線形パラメーター、\ sigma ^ 2は分散です。YgggYYYXXXββ\betaσ2σ2\sigma^2 f(E(Y∣X))∼g(βX,Iσ2)f(E(Y∣X))∼g(βX,Iσ2)f\left(\mathbb E\left(Y\mid X\right)\right) \sim g(\beta X, I\sigma^2) 異なるGLMは平均と分散の関係を課します(または緩和します)が、gggは指数ファミリーの確率分布でなければなりません。これは、正しく思い出せば推定の堅牢性を向上させる望ましい特性です。ただし、ベータおよびディリクレ分布は指数関数ファミリーの一部であるため、私はアイデアを失っています。 [1] Cribari-Neto、F.&Zeileis、A.(2009)。Rのベータ回帰

3
Rに適合した負の二項回帰のシータとは何ですか?
負の二項回帰に関する質問があります。次のコマンドがあるとします。 require(MASS) attach(cars) mod.NB<-glm.nb(dist~speed) summary(mod.NB) detach(cars) (carsはRで利用可能なデータセットであり、このモデルが理にかなっているかどうかはあまり気にしないことに注意してください。) 私が知りたいのは、どのように変数を解釈できますかtheta(呼び出しの下部に返されますsummary)。これはネガビン分布の形状パラメーターですか?歪度の尺度として解釈することは可能ですか?

2
一般化線形(混合)モデル(特に残差)の診断
現在、困難なカウントデータ(従属変数)に適したモデルを見つけるのに苦労しています。lmerand などのさまざまな異なるモデル(混合効果モデルが私の種類のデータに必要です)lme4や、Gaussianや負の二項分布などのさまざまなファミリを持つ一般化線形混合効果モデルを試しました。 しかし、結果の適合をどのように正しく診断するかについてはかなり確信が持てません。Webでそのトピックについて多くの異なる意見を見つけました。線形(混合)回帰の診断は非常に簡単だと思います。先に進んで残差(正規性)を分析し、残差と比較した近似値をプロットすることで不均一分散性を調べることができます。 ただし、一般化バージョンではどのように適切に行うのですか?今のところ、負の二項(混合)回帰に注目しましょう。私はここで残差に関するまったく反対の声明を見ました: では一般化線形モデルにおける正規の残差チェック、それはプレーンな残差が正常にGLMために配布されていないことを最初の回答で指摘されているが、これは明らかだと思います。ただし、ピアソンおよび逸脱残差も正常であるとは想定されていないことが指摘されています。それでも、2番目の答えは、逸脱の残差を正規に分布する必要があることを示しています(参照と組み合わせて)。 ただし、逸脱残差を正規分布で分布させる必要があることは、?glm.diag.plots(Rのbootパッケージから)のドキュメントで示唆されています。 で、このブログの記事、著者は最初のNB混合効果回帰モデルのためのピアソン残差は、私が想定し何の正常性を研究しています。予想通り(私の意見では)、残差は正常であるとは示されず、著者はこのモデルが不適切であると仮定しました。ただし、コメントで述べたように、残差は負の二項分布に従って分布する必要があります。私の意見では、GLM残差は通常の分布とは異なる分布を持つ可能性があるため、これは真実に最も近くなります。これは正しいです?ここで異分散のようなものをチェックする方法は? 最後の点(推定分布の変位値に対する残差のプロット)は、Ben&Yohai(2004)で強調されています。現在、これは私のために行く方法のようです。 簡単に言うと、特に残差に焦点を当てて、一般化線形(混合)回帰モデルのモデル適合をどのように適切に研究しますか?

1
RのGLM後の因子のレベルの比較
ここに私の状況についての少しの背景があります。私のデータは、捕食者が首尾よく食べた獲物の数を参照しています。各トライアルでは獲物の数が限られているため(25個が利用可能)、使用可能な獲物の数を表す「サンプル」列(各トライアルでは25個)と、成功の数である「カウント」何匹の獲物が食べられたか)。プロポーションデータに関するRブック(578ページ)の例に基づいて分析を行いました。説明変数は体温(私は因子として扱った4つのレベル)、および捕食者の性別(明らかに、男性または女性)です。だから私はこのモデルになります: model <- glm(y ~ Temperature+Sex+Temperature*Sex data=predator, family=quasibinomial) Analysis of Devianceテーブルを取得した後、温度と性別(相互作用ではない)が獲物の消費に大きな影響を与えることがわかりました。さて、私の問題:どの温度が異なるかを知る必要があります。つまり、4つの温度を互いに比較する必要があります。線形モデルがあれば、TukeyHSD関数を使用しますが、GLMを使用しているため、使用できません。パッケージMASSを調べて、コントラストマトリックスを設定しようとしましたが、何らかの理由で機能しません。提案や参考文献はありますか? モデルを明確にするのに役立つ場合は、モデルから取得した要約を次に示します... y <- cbind(data$Count, data$Sample-data$Count) model <- glm(y ~ Temperature+Sex+Temperature*Sex data=predator, family=quasibinomial) > summary(model) # Call: # glm(formula = y ~ Temperature + Sex + Temperature * Sex, family=quasibinomial, data=data) # Deviance Residuals: # Min 1Q Median 3Q Max …

3
ポアソン回帰からの残差対適合値のプロットの解釈
RのGLM(ポアソン回帰)でデータを近似しようとしています。残差対近似値をプロットすると、プロットは複数の(わずかに凹状の曲線でほぼ線形の) "線"を作成しました。これは何を意味するのでしょうか? library(faraway) modl <- glm(doctorco ~ sex + age + agesq + income + levyplus + freepoor + freerepa + illness + actdays + hscore + chcond1 + chcond2, family=poisson, data=dvisits) plot(modl)

1
非線形モデルと一般化線形モデル:ロジスティック、ポアソンなどの回帰をどのように参照しますか?
統計学者の意見を聞きたいセマンティクスについて質問があります。 ロジスティック、ポアソンなどのモデルは、一般化線形モデルの傘下にあることがわかっています。モデルにはパラメーターの非線形関数が含まれており、適切なリンク関数を使用して線形モデルフレームワークを使用してモデル化することができます。 ロジスティック回帰などの状況を次のように考えて(教えますか?) パラメーターの形式が与えられた非線形モデル リンクが私たちを線形モデルフレームワークに変換するため、線形モデル 同時に(1)と(2):非線形モデルとして「開始」されますが、線形モデルと考えることができるような方法で動作する可能性があります 私は実際の世論調査を設定することができます...

2
なぜ2つの異なるロジスティック損失定式化/表記法があるのですか?
2種類のロジスティック損失の公式を見てきました。それらが同一であることを簡単に示すことができます。唯一の違いは、ラベル定義です。yyy 定式化/表記法1、:y∈{0,+1}y∈{0,+1}y \in \{0, +1\} L(y,βTx)=−ylog(p)−(1−y)log(1−p)L(y,βTx)=−ylog⁡(p)−(1−y)log⁡(1−p) L(y,\beta^Tx)=-y\log(p)-(1-y)\log(1-p) ここで、、ここでロジスティック関数は実数を0,1間隔にマッピングします。p=11+exp(−βTx)p=11+exp⁡(−βTx)p=\frac 1 {1+\exp(-\beta^Tx)}βTxβTx\beta^T x 定式化/表記法2、:y∈{−1,+1}y∈{−1,+1}y \in \{-1, +1\} L(y,βTx)=log(1+exp(−y⋅βTx))L(y,βTx)=log⁡(1+exp⁡(−y⋅βTx)) L(y,\beta^Tx)=\log(1+\exp{(-y\cdot \beta^Tx})) 表記法を選択することは、言語を選択するようなものであり、どちらを使用するかには賛否両論があります。これら2つの表記法の長所と短所は何ですか? この質問に答えようとする私の試みは、統計コミュニティが最初の表記を好み、コンピュータサイエンスコミュニティが2番目の表記を好むように見えることです。 ロジスティック関数は実数を0.1間隔に変換するため、最初の表記は「確率」という用語で説明できます。βTxβTx\beta^Tx 2番目の表記はより簡潔で、ヒンジ損失または0-1損失と比較するのがより簡単です。 私は正しいですか?他の洞察はありますか?

6
高度な回帰モデリングの例
GLMまたはOLSを使用して複雑な複数の非線形関係をモデル化するために必要な手順を示す、高度な線形回帰のケーススタディを探しています。基本的な学校の例を超えてリソースを見つけることは驚くほど困難です:私が読んだ本のほとんどは、1つの予測子のBoxCox、または最良の場合の自然なスプラインと組み合わせた応答のログ変換よりも先に進むことはありません。また、これまでに見てきたすべての例は、個別のモデル、多くの場合単一の予測モデルで各データ変換の問題に取り組みます。 BoxCoxまたはYeoJohnson変換とは何かを知っています。私が探しているのは、応答/関係が明確ではない、詳細で実際のケーススタディです。たとえば、応答は厳密に肯定的ではないため(logまたはBoxCoxは使用できません)、予測子は応答間で応答に対して非線形の関係を持ち、最尤データ変換は標準の0.33を暗示していないようです。または0.5指数。また、残差分散は一定ではない(決して変わらない)ため、応答も変換する必要があり、非標準のGLMファミリー回帰または応答変換の間で選択を行う必要があります。研究者は、おそらくデータの過剰適合を避けるための選択をします。 編集 これまでのところ、次のリソースを収集しました。 回帰モデリング戦略、F。ハレル 適用された計量経済時系列、W。エンダーズ R、G。Petrisを使用した動的線形モデル 応用回帰分析、D。クラインバウム 統計学習入門、G。ジェームズ/ D。ウィッテン 私は最後の(ISLR)のみを読んでおり、非常に良いテキスト(私の時計では5つ星5つ)ですが、高度な回帰モデリングよりもMLを重視しています。 また、CVには、リグレッションの難しいケースを提示するこの優れた投稿があります。

3
不等分散の回帰モデリング
残差分散が説明変数に明らかに依存している線形モデル(lm)を近似したいと思います。 私がこれを行う方法は、ガンマファミリでglmを使用して分散をモデル化し、その逆関数をlm関数の重みに入れることです(例:http : //nitro.biosci.arizona.edu/r/chapter31 .pdf) 私は考えていた: これが唯一のテクニックですか? 関連する他のアプローチは何ですか? このタイプのモデリングに関連するRパッケージ/機能は何ですか?(glm、lm以外)

2
回帰におけるWaldテスト(OLSおよびGLM):t分布とz分布
回帰係数のWald検定は、漸近的に保持される次のプロパティに基づいていることを理解しています(たとえばWasserman(2006):All Statistics、pages 153、214-215): ここで推定回帰係数を示し、は回帰係数の標準誤差を示し、は係数の値をテストするために関心のある値(は通常0です) 0とは大きく異なります)。サイズようワルドテストがある:リジェクト場合β^SE(β)β0β0αH0| W| >Zα/2(β^- β0)seˆ(β^)〜 N(0 、1 )(β^−β0)se^(β^)∼N(0,1) \frac{(\hat{\beta}-\beta_{0})}{\widehat{\operatorname{se}}(\hat{\beta})}\sim \mathcal{N}(0,1) β^β^\hat{\beta}seˆ(β^)se^(β^)\widehat{\operatorname{se}}(\hat{\beta})β0β0\beta_{0}β0β0\beta_{0}αα\alphaH0H0H_{0}|W| > zα / 2|W|>zα/2|W|> z_{\alpha/2}ここで、 W= β^seˆ(β^)。W=β^se^(β^). W=\frac{\hat{\beta}}{\widehat{\operatorname{se}}(\hat{\beta})}. ただしlm、Rで線形回帰を実行する場合、回帰係数が0(with )と大きく異なるかどうかをテストするために、値の代わりに値が使用されます。さらに、in R の出力は、テスト統計として値と値を提供する場合があります。明らかに、分散パラメータが既知であると想定される場合は値が使用され、分散パラメータが推定される場合は値が使用されます(このリンクを参照)。z z t z ttttzzzsummary.lmglmzzztttzzzttt 係数とその標準誤差の比率が標準正規分布として分布していると想定されているのに、なぜWald検定に分布が使用されることがあるのか、誰か説明できますか?ttt 質問に答えた後に編集する この投稿は、質問に役立つ情報も提供します。

1
一般化線形モデル(GLM)の潜在変数の解釈
短縮版: ロジスティック回帰とプロビット回帰は、観測前に何らかの固定しきい値に従って離散化される連続潜在変数を含むものとして解釈できることを知っています。同様の潜在変数の解釈は、例えばポアソン回帰で利用可能ですか?3つ以上の個別の結果がある場合、二項回帰(ロジットまたはプロビットなど)についてはどうですか?最も一般的なレベルでは、潜在変数の観点からGLMを解釈する方法はありますか? ロングバージョン: バイナリ結果のプロビットモデルを動機付ける標準的な方法(たとえば、Wikipediaから)は次のとおりです。予測変数Xを条件として、正規分布している未観測/潜在結果変数YYYがあります。この潜在変数はしきい値処理を受け、、場合、実際に観測される離散結果はXXXY ≥ γをu=1u=1u=1Y≥γY≥γY \ge \gammau=0u=0u=0、場合です。これにより、Xが与えられた場合のu = 1の確率は、平均および標準偏差がしきい値γの関数である正規CDFの形をとることになります。Y&lt;γY&lt;γY < \gammau=1u=1u=1XXXγγ\gammaおよびX上のの回帰の傾き。したがって、プロビットモデルは、X上のYの潜在的な回帰から勾配を推定する方法として動機付けられています。YYYXXXYYYXXX これは、Thissen&Orlando(2001)の以下のプロットに示されています。これらの著者は、私たちの目的ではプロビット回帰に非常に似ているアイテム応答理論から通常のオジーブモデルを技術的に議論しています(これらの著者はXの代わりにを使用し、確率は通常のPではなくTで記述されていることに注意してください)。θθ\thetaXXXTTTPPP ロジスティック回帰はほぼ同じ方法で解釈できます。唯一の違いは、Xが与えられると、観測されていない連続が正規分布ではなくロジスティック分布に従うことです。Yが正規分布ではなくロジスティック分布に従う理由の理論的議論は少し明確ではありません...しかし、結果のロジスティック曲線は、実際の目的(リスケーリング後)で通常のCDFと本質的に同じように見えるため、おそらく実際には、どのモデルを使用するかが重要になる傾向があります。ポイントは、両方のモデルに非常に簡単な潜在変数の解釈があるということです。YYYXXXYYY -私たちは、他のGLMSに見て、類似した(または地獄、非類似に見える)潜在変数の解釈を適用することができるかどうかを知りたいにも、または任意の GLM。 上記のモデルを拡張して、項分布の結果(つまり、ベルヌーイの結果だけでなく)を説明することは、私には完全に明確ではありません。おそらく、単一のしきい値γを持つ代わりに、複数のしきい値(観測された個別の結果の数より1つ少ない)があることを想像することでこれを行うことができます。ただし、しきい値が等間隔になっているなど、しきい値に何らかの制約を課す必要があります。詳細は明らかにしていませんが、このようなことがうまくいくと確信しています。n &gt; 1n&gt;1n>1γγ\gamma ポアソン回帰のケースに移行することは、私にはさらに明確ではないようです。この場合のモデルについて考えるのにしきい値の概念が最善の方法になるかどうかはわかりません。また、潜在的な結果がどのような分布であると考えられるかについてもわかりません。 これまで最も望ましい解決策は、解釈の一般的な方法だろう任意のいくつかのディストリビューションや他との潜在変数の面でGLMを-この一般的な解決策を暗示していた場合でも、異なるロジット/プロビット回帰の通常のものよりも潜在変数の解釈を。もちろん、一般的な方法が通常のロジット/プロビットの解釈に同意するだけでなく、他のGLMにも自然に拡張されると、さらに格好良くなります。 しかし、そのような潜在変数の解釈が一般的なGLMの場合に一般的に利用できない場合でも、上記の二項およびポアソンのような特殊な場合の潜在変数の解釈についても聞きたいです。 参照資料 Thissen、D.&Orlando、M.(2001)。2つのカテゴリでスコア付けされたアイテムのアイテム応答理論。D. Thissen&Wainer、H.(編)、Test Scoring(pp。73-140)。ニュージャージー州マーワー:Lawrence Erlbaum Associates、Inc. 2016-09-23を編集 GLMが潜在変数モデルであるという些細な感覚があります。つまり、推定される結果分布のパラメーターを「潜在変数」として常に見ることができるということです。つまり、直接観察しません。 、たとえば、ポアソンのレートパラメーターは、データから推測するだけです。この解釈によれば、線形モデル(およびもちろん他の多くのモデル!)は「潜在変数モデル」であるため、これはかなり些細な解釈であり、私が探しているものではありません。たとえば、通常の回帰では、Xが与えられた場合に通常のYの「潜在的な」を推定します。μμ\muYYYバツバツX。そのため、潜在変数のモデリングとパラメーターの推定を混同しているようです。私が探しているものは、たとえばポアソン回帰の場合、観測された結果が最初にポアソン分布を持たなければならない理由についての理論モデルのように見えます。潜在的なの分布、存在する場合は選択プロセスなど。その後、(おそらく決定的には?)これらの潜在的な分布/プロセスのパラメーターの観点から推定GLM係数を解釈できるはずです。潜在正規変数の平均シフトおよび/または閾値γのシフトに関してプロビット回帰の係数を解釈します。YYYγγ\gamma

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.