タグ付けされた質問 「generalized-linear-model」

「リンク関数」を介して非線形関係を可能にし、応答の分散を予測値に依存させることができる線形回帰の一般化。(通常の線形モデルを一般的な共分散構造と多変量応答に拡張する「一般線形モデル」と混同しないでください。)

2
理論と数学に同等のストレスがある良い本
私は、在学中および大学で統計に関する十分なコースを受講しました。CI、p値、統計的有意性の解釈、複数の検定、相関、単純な線形回帰(最小二乗法)(一般的な線形モデル)、および仮説のすべての検定などの概念を十分に理解しています。初期のほとんどは数学的に紹介されていました。そして最近、私は本の直観的な生物統計学の助けを借りて、実際の概念理論に対して前例のない理解を理解しました。 さて、足りないのはモデルのフィッティング(モデルへのパラメータの推定)などの理解が足りないことです。特に、最尤推定、一般化線形モデル、推論統計へのベイジアンアプローチなどの概念は、常に私には異質に思えます。単純な確率モデルやインターネット上の他の(基本的な)トピックに見られるように、十分な例やチュートリアル、あるいは概念的に適切なものはありません。 私はバイオインフォマティシャンで、遺伝子発現(または遺伝子発現の差異)を見つけるための生の読み取りカウントを扱うRNA-Seqデータに取り組んでいます。私のバックグラウンドから、統計モデルに精通していなくても、ポアソン分布の仮定や負の二項式などの理由を理解することができます。しかし、一部の論文では一般化線形モデルを扱い、MLEなどを推定しています。理解するために必要な背景があると思います。 私が求めているのは、あなたの中の一部の専門家が有用だと思うアプローチと、(a)これらの概念をより直感的な方法で理解するのに役立つ本です(厳密な数学だけでなく、数学に裏打ちされた理論)。私はそれらを主に適用するつもりなので、何が何であるかを理解することに満足しているでしょうし、後で、厳密な数学的証明に戻ることができます...誰かに何か推奨はありますか?私が求めたトピックが確かにばらばらになっていて本でカバーされているなら、私は複数の本を買ってもかまわない。 どうもありがとうございました!

3
母集団のr二乗変化の信頼区間を取得する方法
簡単な例のために、2つの線形回帰モデルがあると仮定します モデル1は、3つの予測因子を持っているx1a、x2bと、x2c モデル2には、モデル1からの3つの予測子と2つの追加の予測子がx2aあり、x2b 母集団の分散が説明人口回帰式がある モデル1及びρ 2 (2 )増分分散がある集団におけるモデル2によって説明するモデル2についてΔは、ρ 2 = ρ 2 (2 ) - ρ 2 (1 )ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δρ2=ρ2(2)−ρ2(1)Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} 私は、の推定のための標準誤差と信頼区間を得ることに興味を持ってい。例にはそれぞれ3および2の予測子が含まれていますが、私の研究対象は、さまざまな数の予測子(たとえば、5および30)に関係しています。私が最初に考えたのは使用していた Δ R 2 、A D J = R 2 のD J (2 ) - R 2 次元J (1 )推定量として、それをブートストラップが、私は確かに、これは適切であるかどうかではなかったです。Δρ2Δρ2\Delta\rho^2Δr2adj=r2adj(2)−r2adj(1)Δradj2=radj(2)2−radj(1)2\Delta r^2_{adj} = r^2_{adj(2)} - r^2_{adj(1)} ご質問 されたの合理的な推定量Δは、ρ …

1
混合効果ロジスティック回帰からの固定効果の解釈
混合効果ロジスティック回帰についてのUCLA Webページのステートメントに混乱しています。それらは、そのようなモデルのフィッティングからの固定効果係数の表を示し、下の最初の段落は、通常のロジスティック回帰とまったく同じように係数を解釈するようです。しかし、彼らがオッズ比について話すとき、彼らは変量効果を条件としてそれらを解釈しなければならないと言います。対数オッズの解釈が指数値と異なるのは何ですか? 「その他すべてを一定に保つ」ことも必要ではないでしょうか? このモデルから固定効果係数を解釈する適切な方法は何ですか?変量効果の期待値はゼロであるため、私は常に「通常の」ロジスティック回帰から何も変化がないという印象を受けました。したがって、変量効果の有無にかかわらず、ログオッズとオッズ比をまったく同じに解釈しました-SEのみが変更されました。 推定は本質的にいつものように解釈することができます。たとえば、IL6の場合、IL6の1単位の増加は、寛解の予想対数オッズの.053単位の減少に関連付けられています。同様に、結婚している、または結婚したまま生活している人は、独身の人よりも.26対数寛解の確率が高いと予想されます。 多くの人々はオッズ比を解釈することを好みます。ただし、これらは混合効果がある場合、より微妙な意味を帯びます。通常のロジスティック回帰では、オッズ比は、他のすべての予測子を固定した期待オッズ比です。これは、結婚などの「純粋な」効果や、関心のある主要な予測因子が何であれ、「純粋な」効果を得るために、年齢などの他の効果を統計的に調整することに関心があることが多いため、これは理にかなっています。同じことが混合効果ロジスティックモデルにも当てはまります。その他すべてを固定することには、変量効果を固定することが含まれます。つまり、ここでのオッズ比は、年齢とIL6を一定に保つ人と、同じ医師または同じ変量効果を持つ医師を持つ人の条件付きオッズ比です。


1
GLMの対数尤度
次のコードでは、glmを使用してグループ化されたデータとmle2を使用して「手動」でロジスティック回帰を実行します。RのlogLik関数で対数尤度logLik(fit.glm)=-2.336が得られるのはなぜですか。手作業で取得したものとは異なります。 library(bbmle) #successes in first column, failures in second Y <- matrix(c(1,2,4,3,2,0),3,2) #predictor X <- c(0,1,2) #use glm fit.glm <- glm(Y ~ X,family=binomial (link=logit)) summary(fit.glm) #use mle2 invlogit <- function(x) { exp(x) / (1+exp(x))} nloglike <- function(a,b) { L <- 0 for (i in 1:n){ L <- L + sum(y[i,1]*log(invlogit(a+b*x[i])) …

4
Rの離散時間イベント履歴(生存)モデル
Rに離散時間モデルを適合させようとしていますが、その方法がわかりません。 従属変数を時間監視ごとに1つずつ異なる行に編成し、glm関数をlogitまたはcloglogリンクで使用できることを読みました。この意味で、私は3つの列があります:ID、Event(各time-obsで1または0)およびTime Elapsed(観測の開始以降)、および他の共変量。 モデルに合うようにコードを書くにはどうすればよいですか?従属変数はどれですか?Event従属変数として使用できTime Elapsed、共変量に含めることができると思います。しかし、どうなりIDますか?必要ですか? ありがとう。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

4
Rのロジスティック回帰モデルに適合しない場合のピアソンの検定統計量を計算するにはどうすればよいですか?
尤度比(別名逸脱)統計と適合度(または適合度)検定は、Rのロジスティック回帰モデル(関数を使用して適合)を取得するのはかなり簡単です。ただし、いくつかのセル数が十分に少なくなり、テストの信頼性が低下します。適合度不足の尤度比検定の信頼性を検証する1つの方法は、その検定統計量とP値をピアソンのカイ二乗(または\ chi ^ 2)適合度検定のそれらと比較することです。G2G2G^2glm(..., family = binomial)χ2χ2\chi^2 glmオブジェクトもそのsummary()メソッドも、ピアソンのカイ二乗検定の適合性の検定統計量を報告しません。私の検索では、思いついたのはchisq.test()(statsパッケージ内の)関数だけです。そのドキュメントには、「chisq.testカイ2乗分割表テストと適合度テストを実行する」と記載されています。ただし、そのようなテストを実行する方法についてのドキュメントはまばらです。 場合はx一つの行または列を持つ行列である場合、またはxベクターであり、yその後、与えられていない適合度(テストが行われるx一次元分割表として扱われます)。のエントリは、x負でない整数でなければなりません。この場合、テストされる仮説は、母集団の確率がの確率と等しいか、与えられないp場合pはすべて等しいかどうかです。 の引数にオブジェクトのyコンポーネントを使用できると思います。ただし、エラーが発生するため、の引数にオブジェクトのコンポーネントを使用できません: " "glmxchisq.testfitted.valuesglmpchisq.testprobabilities must sum to 1. (Rで)手動でステップを実行することなく、少なくともピアソンの検定の統計を計算して適合性の欠如を調べるにはどうすればよいですか?χ2χ2\chi^2

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
ホッケー選手が記録した総キャリア目標を予測するときにポアソン回帰でオフセットを使用するかどうか
オフセットを使用するかどうかについて質問があります。ホッケーのゴールの(全体的な)数を記述したい非常に簡単なモデルを想定します。つまり、ゴール、プレイしたゲームの数、およびダミー変数「ストライカー」があり、プレーヤーがストライカーの場合は1、それ以外の場合は0になります。次のモデルのどれが正しく指定されていますか? Goals = games + striker、または ゴール=オフセット(ゲーム)+ストライカー 繰り返しになりますが、目標は全体的な目標であり、ゲームの数は1人のプレーヤーの全体的なゲームです。たとえば、100ゲームで50ゴールを獲得したプレーヤーと、50ゲームで20ゴールを獲得した別のプレーヤーがいる場合などです。 目標の数を見積もるにはどうすればよいですか?ここでオフセットを使用する必要がありますか? 参照: 一般にポアソン回帰でオフセットを使用する場合について説明しているこの前の質問を参照してください。

1
Rでのロジスティックモデルの出力
次のタイプのロジスティックモデルを解釈しようとしています。 mdl <- glm(c(suc,fail) ~ fac1 + fac2, data=df, family=binomial) predict(mdl)各データポイントの成功の予想オッズの出力ですか?すべてのデータポイントではなく、モデルの各因子レベルのオッズを集計する簡単な方法はありますか?

2
カテゴリーおよび数値予測子を使用した重回帰
私はRに比較的慣れていないので、カテゴリー列と数値(整数)列で構成されるデータにモデルを適合させようとしています。従属変数は連続番号です。 データの形式は次のとおりです。 predCateg、predIntNum、ResponseVar データは次のようになります。 ranking, age_in_years, wealth_indicator category_A, 99, 1234.56 category_A, 21, 12.34 category_A, 42, 234.56 .... category_N, 105, 77.27 Rでこれを(おそらくGLMを使用して)どのようにモデル化しますか? [[編集]] (データをより徹底的に分析した後)たまたまカテゴリカルな独立変数が実際に順序付けられていることに気づきました。したがって、私は以前に提供された答えを次のように変更しました: > fit2 <- glm(wealth_indicator ~ ordered(ranking) + age_in_years, data=amort2) > > fit2 Call: glm(formula = wealth_indicator ~ ordered(ranking) + age_in_years, data = amort2) Coefficients: (Intercept) ordered(ranking).L ordered(ranking).Q …

1
負の二項モデルと準ポアソンの比較
仮説検定アプローチに基づいて、負の二項モデルと準ポアソンモデルを実行しました。両方の方法を使用する私の最終モデルには、異なる共変量と交互作用があります。どちらの場合も残差をプロットするときにパターンがないようです。したがって、準ポアソンには可能性またはAICがないため、どのモデルが私のデータによりよく適合するかを確認するためにどのテストを使用できるか疑問に思いました… また、私は負の二項式がより適切であると私に思わせる過剰分散がたくさんありますが、常識に基づいてモデルを選択できるかどうかわかりません…

2
統計におけるベクトル計算
今学期は、いくつかの変数の関数の統合とベクトル計算についてクラスを教えています。このクラスはほとんどの経済学専攻と工学専攻で構成されており、数学や物理学の専門家もいます。私はこの学期を前学期に教えました、そして、経済学専攻の多くは後半にかなり退屈であることがわかりました。共同で分布した確率変数を使用していくつかの計算を行うことで、複数の積分を動機づけることができましたが、コースのベクトル分析の部分については、物理学に基づいて考えることができる唯一の動機付けでした。 だから、誰かがベクトル計算の主要な定理のいずれかの統計的/確率論的解釈を知っているかどうか疑問に思っています:グリーンの定理、ストークスの定理、そして発散の定理。問題の一部は、発散、勾配、またはカールは言うまでもなく、確率論ではベクトル場があまり頻繁に出現しないように見えることです。数日前にこの質問をmath.stackexchangeにも投稿しましたが、まだ他のアイデアを探しています。

1
正則化線形対RKHS回帰
私はRKHS回帰と線形回帰の正則化の違いを研究していますが、両者の決定的な違いを理解するのに苦労しています。 入力-出力ペア所与の、Iは、関数推定するFを(⋅ )次のように F (X )≈ U (X )= M Σ iは= 1 α I K (Xは、xは私は)、 ここで、K (⋅ 、⋅ )はカーネル関数です。係数α mは解くことによってのいずれかで見つけることができる 分(x私、y私)(xi,yi)(x_i,y_i)f(⋅ )f(⋅)f(\cdot)f(X )≈ U (X )= Σi = 1メートルα私K(x 、x私)、f(x)≈u(x)=∑i=1mαiK(x,xi),\begin{equation}f(x)\approx u(x)=\sum_{i=1}^m \alpha_i K(x,x_i),\end{equation}K(⋅ 、⋅ )K(⋅,⋅)K(\cdot,\cdot)αmαm\alpha_m ここで、表記の一部乱用、とI、J「カーネル行列の番目のエントリKであるK(XI、XのJ)。これは、得られる α*=(K+λNI)-1Yを。 または、問題を通常のリッジ回帰/線形回帰の問題として扱うこともできます。 minα∈Rn1n∥Y−Kα∥2Rn+λαTKα,minα∈Rn1n‖Y−Kα‖Rn2+λαTKα,\begin{equation} {\displaystyle \min _{\alpha\in R^{n}}{\frac {1}{n}}\|Y-K\alpha\|_{R^{n}}^{2}+\lambda \alpha^{T}K\alpha},\end{equation}i,ji,ji,jKKKK(xi,xj)K(xi,xj){\displaystyle K(x_{i},x_{j})} α∗=(K+λnI)−1Y.α∗=(K+λnI)−1Y.\begin{equation} \alpha^*=(K+\lambda …

1
ガンマファミリーを持つGLMにおけるアルファの実際的な意味は何ですか?
フォームのいくつかのモデルに適合しています。 glm(DV ~ I(1/IV), family = Gamma(link = "log") ..異なる変数について取得したモデルを比較する方法を探しています。アルファ値が実用的かどうか疑問に思っていますか? 以下の3つのプロットの場合、アルファ値は17.85、9.03、6.27です。これらの値には、データを解釈したり、さまざまな変数を比較したりするのに役立つ情報が含まれていますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.