タグ付けされた質問 「generalized-linear-model」

「リンク関数」を介して非線形関係を可能にし、応答の分散を予測値に依存させることができる線形回帰の一般化。(通常の線形モデルを一般的な共分散構造と多変量応答に拡張する「一般線形モデル」と混同しないでください。)

1
正規リンク関数は常に一般化線形モデル(GLM)に存在しますか?
GLMでは、pdfを使用して、基になる分布に対してスカラーおよびを 仮定します。 \ mu = \ operatorname {E}(Y)= A '(\ theta)である ことを示すことができます。リンク関数g(\ cdot)が次の条件を満たす場合、g(\ mu)= \ theta = X '\ betaここで、X' \ betaは線形予測子であり、g(\ cdot)はこれに対する正準リンク関数と呼ばれますモデル。θ F Y(Y | θYYYθθ\thetaμ=E(Y)=fY(y|θ,τ)=h(y,τ)exp(θy−A(θ)d(τ))fY(y|θ,τ)=h(y,τ)exp⁡(θy−A(θ)d(τ))f_Y(y | \theta, \tau) = h(y,\tau) \exp{\left(\frac{\theta y - A(\theta)}{d(\tau)} \right)}μ=E(Y)=A′(θ)μ=E⁡(Y)=A′(θ) \mu = \operatorname{E}(Y) = A'(\theta)g(⋅)g(⋅)g(\cdot)X ' β G (⋅ )g(μ)=θ=X′βg(μ)=θ=X′βg(\mu)=\theta = X'\beta X′βX′βX'\betag(⋅)g(⋅)g(\cdot) …

1
ポアソン回帰モデルを検証するためのコスト関数
収集したカウントデータについては、ポアソン回帰を使用してモデルを構築しています。これはglm、私が使用するR の関数を使用して行いますfamily = "poisson"。可能なモデルを評価するために(私はいくつかの予測子を持っています)、AICを使用します。ここまでは順調ですね。次に、相互検証を実行します。私はすでにパッケージのcv.glm関数を使用してこれに成功していbootます。ドキュメントのcv.glmIあなたが意味のある予測誤差を取得するには、特定のコスト関数を使用する必要が二項データのためにその例を参照してください。ただし、どのコスト関数がに適しているのかはまだわかりませんfamily = poisson。Googleを広範囲に検索しても、特定の結果は得られませんでした。私の質問はcv.glm、ポアソンglmの場合にどのコスト関数が適切であるかを当てる光が誰にもあるということです。

2
遺伝子重複レベルによる濃縮分析
生物学的背景 時間の経過とともに、一部の植物種はゲノム全体を複製して、各遺伝子の追加のコピーを取得する傾向があります。このセットアップが不安定なため、これらの遺伝子の多くは削除され、ゲノムは再配置されて安定し、再び複製できるようになります。これらの複製イベントは、種分化および侵入イベントに関連付けられており、理論は、複製が植物の新しい環境への迅速な適応を支援するというものです。 顕花植物の属であるルピナスは、これまでに検出された最も迅速な種分化イベントの1つでアンデスに侵入しました。さらに、最も密接に関連する属であるバプティシアよりも、ゲノムに重複コピーが多いようです。 そして今、数学的問題: ルピナスのメンバーとバプティシアのメンバーのゲノムが配列決定され、各種の約25,000遺伝子の生データが提供されています。既知の機能を持つ遺伝子のデータベースに対してクエリを実行することで、その遺伝子が実行する機能を「推測」できるようになりました。たとえば、Gene1298は「フルクトース代謝、塩ストレス応答、低温ストレス応答」に関連付けられている可能性があります。バプティシアとルピナスの間に重複イベントがあったかどうか、遺伝子の喪失がランダムに起こったかどうか、または特定の機能を実行する遺伝子が維持または削除される可能性が高かったかどうかを知りたいです。 以下のようなテーブルを出力するスクリプトがあります。L *は、機能に関連するすべてのルピナス遺伝子の数です。L 1+は、少なくとも1つの重複コピーが存在する機能に関連するルピナス遺伝子の数です。L 2 +、L 3+などを生成することができますが、L 1+はシーケンス処理のため、L 2+よりもはるかに信頼性の高いグループです。 Function | L * | L 1+ | B * | B 1+ | fructose metabolism | 1000 | 994 | 1290 | 876 | salt stress | 56 | 45 | 90 | 54 | etc. …

2
GLM出力の分散パラメーター
私はRでglmを実行しました、そしてsummary()出力の下部近くに、それは述べています (Dispersion parameter for gaussian family taken to be 28.35031) 私はいくつかのグーグル調査を行っており、標準誤差を合わせるために分散パラメーターが使用されていることを学びました。誰かが分散パラメーターとは何か、そしてそれをどのように解釈すべきかについて詳細を誰かが提供できることを望んでいますか?

1
RでのポアソンGLMの適合-レートとカウントの問題
現在、いくつかのカウントデータのGLM(および最終的にはGAM)を含むプロジェクトに取り組んでいます。通常、私はSASでこれを行いますが、Rに移動しようとしていて、問題があります。 以下を使用してデータをカウントするようにGLMを適合させた場合: cdi_model <- glm(counts ~ exposure + covariate + month, data=test, family = poisson) 私は得ます: Deviance Residuals: Min 1Q Median 3Q Max -1.9825 -0.7903 -0.1187 0.5717 1.7649 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.97563 0.20117 9.821 < 2e-16 *** exposure 0.94528 0.30808 3.068 0.00215 ** covariate -0.01317 …

1
バイナリデータにANOVAをどのように適応できますか?
私は4つの競合するモデルを使用して、n人の被験者のバイナリ結果変数(卒業後の雇用状況、1 =就業、0 =非就業など)を予測しています。モデルパフォーマンスの自然な測定基準は、ヒット率であり、これは各モデルの正しい予測の割合です。 データが分散分析の基礎となる仮定に違反しているため、この設定では分散分析を使用できないようです。上記の設定でANOVAの代わりに使用できる同等の手順で、4つのモデルすべてが同等に効果的であるという仮説をテストできますか?

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 


1
IDリンクを使用したOLSとPoisson GLM
私の質問は、ポアソン回帰とGLMの一般的な理解が不十分であることを示しています。ここに私の質問を説明するためのいくつかの偽のデータがあります: ### some fake data x=c(1:14) y=c(0, 1, 2, 3, 1, 4, 9, 18, 23, 31, 20, 25, 37, 45) 擬似R2を返すカスタム関数: ### functions of pseudo-R2 psuR2 <- function(null.dev, model.dev) { 1 - (model.dev / null.dev)} predR2 <- function(actuals, predicted) { 1 - (sum((actuals - predicted)^2)) / sum((actuals - mean(actuals))^2)} 4つのモデルに適合:OLS、アイデンティティリンク付きガウスGLM、ログリンク付きポアソンGLM、アイデンティティリンク付きポアソンGLM …

1
GLMにはどのような残差とクックの距離が使用されますか?
クックの距離の式が何か知っている人はいますか?元のクックの距離式はスチューデント化された残差を使用していますが、Rがstdを使用するのはなぜですか。GLMのクックの距離プロットを計算するときのピアソン残差。学習した残差がGLMに対して定義されていないことは知っていますが、クックの距離を計算する式はどのように見えますか? 次の例を想定します。 numberofdrugs <- rcauchy(84, 10) healthvalue <- rpois(84,75) test <- glm(healthvalue ~ numberofdrugs, family=poisson) plot(test, which=5) クックの距離の式は何ですか?言い換えれば、赤い破線を計算する式は何ですか?そして、標準化されたピアソン残差のこの式はどこから来たのですか?

3
ポアソンGLMにオフセットを使用する必要がありますか?
私は、2つの異なる水中視覚センサス法を使用した場合の魚密度と魚種の豊富さの違いを調べるための研究を行っています。私のデータは元々はカウントデータでしたが、通常は魚の密度に変更されますが、ポアソンGLMを使用することに決めました。 model1 <- glm(g_den ~ method + site + depth, poisson) 私の3つの予測変数は、メソッド、サイト、および深さです。 私の応答変数は、ハタ種の豊富さ、ハタ密度、および他の魚群と同じです。密度は整数ではなく、数値データであることを認識しています(例:1.34849)。私は今このエラーを得ています: In dpois(y, mu, log = TRUE) : non-integer x = 0.037500 私は読んでいて、多くの人がオフセットの使用を提案していますが、これは最も賢明なことですか?

2
ベイジアンロジットモデル-直感的な説明?
私は以前、学部生や卒業生のクラスでその用語を聞いたことがないことを告白しなければなりません。 ロジスティック回帰がベイジアンであるとはどういう意味ですか?次のような通常のロジスティックからベイジアンロジスティックへの移行に関する説明を探しています。 これは、線形回帰モデルでの式である:。E(y)=β0+β1x1+...+βnxnE(y)=β0+β1x1+...+βnxnE(y) = \beta_0 + \beta_1x_1 + ... + \beta_nx_n これはロジスティック回帰モデルの方程式です:。これは、yがカテゴリカルの場合に行われます。ln(E(y)1−E(y))=β0+β1x1+...+βnxnln⁡(E(y)1−E(y))=β0+β1x1+...+βnxn\ln(\frac{E(y)}{1-E(y)}) = \beta_0 + \beta_1x_1 + ... + \beta_nx_n 私たちが行っていることは、変更されるへのln (E (Y )E(y)E(y)E(y)。ln(E(y)1−E(y))ln⁡(E(y)1−E(y))\ln(\frac{E(y)}{1-E(y)}) では、ベイジアンロジスティック回帰のロジスティック回帰モデルはどうなりますか?方程式とは関係ないのではないかと思います。 この本のプレビューは定義しているようですが、私にはよくわかりません。この以前の可能性のすべては何ですか?とは?本の一部またはベイジアンロジットモデルを別の方法で誰かが説明してもらえますか?αα\alpha 注:これは以前に尋ねられましたが、あまりよく答えられていないと思います。

1
nullとモデル偏差を使用してGLMモデルをテストする
私はRでglmモデルを構築し、テストおよびトレーニンググループを使用してテストしたので、うまく機能すると確信しています。Rの結果は次のとおりです。 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -2.781e+00 1.677e-02 -165.789 < 2e-16 *** Coeff_A 1.663e-05 5.438e-06 3.059 0.00222 ** log(Coeff_B) 8.925e-01 1.023e-02 87.245 < 2e-16 *** log(Coeff_C) -3.978e-01 7.695e-03 -51.689 < 2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 …

1
これらのデータを2項式glmの比率に集約できますか?
60人にアトランタのレストランフランチャイズをできるだけ多く記載してもらいました。全体のリストには70を超えるレストランが含まれていましたが、10%未満の人から言及されたレストランは除外され、45となりました。これらの45について、フランチャイズをリストした情報提供者の割合を計算しました。この比率をフランチャイズの(対数変換された)広告予算とフランチャイズになってからの年数の関数としてモデル化する。 だから私はこのコードを書きました: model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45) 予測されたように、両方の変数は強力で重要な効果を示します。 しかし、比例データをOL​​S回帰でモデル化してはならないことはわかっていますが、その後、次のコードを記述しました。 model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45) この場合、「予算」は依然として重要な予測因子ですが、「年」は比較的弱く、重要ではありません。 見積もりによって、集計によって人為的に信頼が高まるのではないかと心配になります。2項式のglmは、モデルが45 * 55 = 2,475行に基づくように、基本的にデータをベクトル化しませんか?実際にレストランが45店、情報提供者が55店しかないことを考えると、それは適切でしょうか。これは混合効果モデリングを必要とするでしょうか?

1
まれなイベントのロジスティック回帰のカットオフ確率を選択する方法
私は100の観測値(9つのダミー指標変数)を持ち、1000のポジティブを持っています。この場合、ロジスティック回帰は問題なく機能するはずですが、カットオフの可能性に戸惑います。 一般的な文献では、1と0を予測するために50%カットオフを選択しています。モデルの最大値が1%以下であるため、これを行うことはできません。したがって、しきい値は0.007またはその付近のいずれかになります。 ROC曲線と、曲線の下の領域が同じデータセットの2つのLRモデルを選択するのにどのように役立つかを理解しています。ただし、ROCは、サンプル外のデータでモデルをテストするために使用できる最適なカットオフ確率を選択するのに役立ちません。 私は単に最小化するカットオフ値を使用する必要がありmisclassification rateますか?(http://www2.sas.com/proceedings/sugi31/210-31.pdf) 追加->このように低いイベントレートの場合、誤分類率は膨大な数の誤検知の影響を受けます。全体のユニバースサイズも大きいので、全体の比率は良好に見えますが、私のモデルはそれほど多くの誤検知があってはなりません(これは投資収益モデルであるため)。5/10係数は重要です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.