タグ付けされた質問 「generalized-linear-model」

「リンク関数」を介して非線形関係を可能にし、応答の分散を予測値に依存させることができる線形回帰の一般化。(通常の線形モデルを一般的な共分散構造と多変量応答に拡張する「一般線形モデル」と混同しないでください。)

2
ロジスティック回帰係数からオッズ比を使用してリスク比を計算する
バイナリ固定因子予測子が1つだけのバイナリロジスティック回帰があります。私がカイ二乗法またはフィッシャーの正確確率検定としてそれを行わない理由は、ランダムな要因もいくつかあるためです(個人ごとに複数のデータポイントがあり、個人はグループに属していますが、係数や有意性は気にしません)これらの確率変数の場合)。R glmerでこれを行います。 予測因子の係数と関連する信頼区間をオッズ比ではなくリスク比として表現できるようにしたいと思います。これは(おそらくあなたではなく私の聴衆にとって)リスク比がはるかに理解しやすいためです。ここでのリスク比は、予測子が0ではなく1の場合に、結果が0ではなく1になる確率の相対的な増加です。 オッズ比は、exp()を使用して係数と関連するCIから取得するのは簡単です。オッズ比をリスク比に変換するには、「RR = OR /(1 – p +(px OR))を使用できます。ここで、pはコントロールグループのリスクです」(出典:http://www.r- bloggers.com/how-to-convert-odds-ratios-to-relative-risks/)。しかし、コントロールグループのリスクが必要です。これは、私の場合、予測子が0の場合に結果が1になる可能性を意味します。モデルの切片係数は、実際にはこのチャンスのオッズであると考えているので、これを取得するには、prob = odds /(odds + 1)を使用します。リスク比率の中心的な見積もりが行く限り、私はこれについてはかなり遠いところにいます。ただし、切片係数にも独自のCIが関連付けられているため、心配なのは関連する信頼区間です。切片の中央推定値を使用する必要がありますか、それとも保守的であるために、切片CIの制限を使用して相対リスクCIを最も広くする必要がありますか?それとも私は間違った木を完全に吠えていますか?

3
GLMがモードではなく平均を予測するのはなぜですか?
GLMが信号のモードではなく平均を予測するのはなぜですか?これは、GLMの背後にある基本、つまり最尤法と矛盾していませんか?GLMのモデルパラメーターを解くための方程式は、モデル化された信号の確率分布によって記述される尤度の最大化に基づいています。この確率分布は、平均ではなくモードの最大値です(正規分布は例外です:モードと平均の両方が同じです)。したがって、GLMは信号の平均ではなくモードを予測する必要があります。(この質問の背景については、こちらを参照してください。)

2
Rのポアソンデータの対数対平方根リンク
現在、RのGLMを使用して、エイズによる死亡のモデル化に取り組んでいます。ポアソンデータのリンク関数には、対数と平方根の2つのオプションがあることを知っています。 平方根はばらつきの問題を解決するのに対し、対数は曲線をまっすぐにする必要があることを知っています。しかし、どのリンクがデータに適しているかを実際にテストするにはどうすればよいですか?

1
回帰木の末端ノードにおけるGLMの利点?
そのため、データから回帰ツリーを成長させて枝刈りし、ツリーのターミナルノードにGLMを適合させるアルゴリズムを書くというアイデアを試しています。私はアイデアを読み上げようとしてきましたが、テクニックの一貫した名前を見つけることができないようです。私はそれをハイブリッド回帰ツリー(HRT)、モデルツリー、および機能ツリーとして読みました。これらの用語での検索はほとんどありません。 これに別の名前がないのですか?これの有効性に関する研究はどこにありますか?


3
分布を見つけて正規分布に変換する
1時間にイベントが発生する頻度(「1時間あたりの数」、nph)とイベントが持続する時間(「1秒あたりの秒数」、dph)を説明するデータがあります。 これは元のデータです: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, 15.3750000002237, NA, 6.00000000004109, 9.71428571436649, 12.4848484848485, 16.5034965037115, 20.6666666666667, 3.49999999997453, 4.65882352938624, 4.74999999996544, 3.99999999994522, 2.8, 14.2285714286188, 11.0000000000915, NA, 2.66666666666667, 3.76470588230138, 4.70588235287673, 13.2727272728677, 2.0000000000137, 18.4444444444444, 17.5555555555556, 14.2222222222222, 2.00000000001663, 4, 8.46153846146269, 19.2000000001788, 13.9024390245481, 13, 3.00000000004366, NA, …
8 normal-distribution  data-transformation  logistic  generalized-linear-model  ridge-regression  t-test  wilcoxon-signed-rank  paired-data  naive-bayes  distributions  logistic  goodness-of-fit  time-series  eviews  ecm  panel-data  reliability  psychometrics  validity  cronbachs-alpha  self-study  random-variable  expected-value  median  regression  self-study  multiple-regression  linear-model  forecasting  prediction-interval  normal-distribution  excel  bayesian  multivariate-analysis  modeling  predictive-models  canonical-correlation  rbm  time-series  machine-learning  neural-networks  fishers-exact  factorisation-theorem  svm  prediction  linear  reinforcement-learning  cdf  probability-inequalities  ecdf  time-series  kalman-filter  state-space-models  dynamic-regression  index-decomposition  sampling  stratification  cluster-sample  survey-sampling  distributions  maximum-likelihood  gamma-distribution 

2
繰り返し再重み付けされた最小二乗法がロジスティック回帰に使用されたときに収束しない理由は何ですか?
私はRでglm.fit関数を使用して、パラメーターをロジスティック回帰モデルに適合させています。デフォルトでは、glm.fitは繰り返し重み付けされた最小二乗法を使用してパラメーターを近似します。このアルゴリズムをロジスティック回帰に使用すると、収束に失敗する理由は何ですか?

2
ロジスティック回帰で係数間の関係を強制する方法はありますか?
次の関係があるロジスティック回帰モデルを指定したいと思います。 FE[ Y私| バツ私] = f(βバツ私1+ β2バツ私2)E[Yi|Xi]=f(βxi1+β2xi2)E[Y_i|X_i] = f(\beta x_{i1} + \beta^2x_{i2})ここで、は逆ロジット関数です。fff 既存のR関数でこれを行う「迅速な」方法はありますか、またはこのようなモデルの名前はありますか?私はロジスティック回帰に使用されるNewton-Raphsonアルゴリズムを変更できることを理解していますが、これは多くの理論的およびコーディング作業であり、ショートカットを探しています。 編集:確率を最大化するためにRのoptim()または他のオプティマイザーを使用して、ポイント推定値を取得することは非常に簡単です。しかし、私はこれらの人の標準エラーが必要です。ββ\beta

1
ポアソンGLM(対数リンク関数)の説明された分散の測定
(ログリンク関数を使用して)ポアソンGLMの「説明された分散」の適切な尺度を探しています。 私はいくつかの異なるリソース(このサイトと他の場所の両方で)を見つけましたが、いくつかの異なる擬似対策について説明していますが、ほぼすべてのサイトで、ロジットリンク関数に関連する対策について言及していますが、疑似測度が、私のポワシオン分布GLMの対数リンクなどの他のリンク関数に適しているかどうかを話し合います。R2R2R^2R2R2R^2 たとえば、ここに私が見つけたいくつかのサイトがあります: ロジスティック回帰(Cox&SnellまたはNagelkerke)について報告するのは、どの擬似メジャーですか?R2R2R^2 http://thestatsgeek.com/2014/02/08/r-squared-in-logistic-regression/ http://www.ats.ucla.edu/stat/mult_pkg/faq/general/Psuedo_RSquareds.htm 私の質問は次のとおりです。これらのリンクで説明されている方法(特にUCLAページのFAQ)は、Poission GLM(ログリンク機能を使用)に適していますか?他のどの方法よりも特定の方法が適切であるか、標準的に使用されていますか? 背景: これは、Poission GLMを使用して神経データを分析している研究論文用です。モデルの偏差(Poission分布を想定して計算)を使用して2つのモデルを比較しています。1つのモデル(A)には、他のモデル(B)から除外された5つのパラメーターが含まれています。私の興味(および論文の焦点)は、5つのパラメーターが統計的にモデルの適合を改善することを示すことです。ただし、レビュー担当者の1人は、両方のモデルがデータにどの程度適合しているかを示したいと考えています。 データの適合にOLSを使用していた場合、レビュー担当者は、5つのパラメーターがあるモデルと5つのパラメーターがないモデルの両方の値を効果的に求め、どちらのモデルが分散をどの程度適切に説明しているかを示します。私には合理的な要求のようです。仮に、モデルBのが0.05でモデルAのが0.25であるとします。これは統計的に有意な改善であるとしても、どちらのモデルもデータをうまく説明できません。または、モデルBのが0.5でモデルAのが0.7の場合、非常に異なる方法で解釈される可能性があります。私のGLMと同様の方法で適用できる最も適切な指標を探しています。R2R2R^2R2R2R^2R2R2R^2R2R2R^2R2R2R^2

1
低いサンプルサイズ:LR vs F-テスト
皆さんの中には、この素晴らしい論文を読んだことがあるかもしれません。 O'Hara RB、Kotze DJ(2010)カウントデータをログ変換しません。生態学と進化の方法1:118–122。クリック。 現在、私は、変換されたデータの負の二項モデルをガウスモデルと比較しています。O'Hara RBと​​は異なり、Kotze DJ(2010)は、サンプルサイズが低く、仮説検定のコンテキストでの特殊なケースを調べています。 両方の違いを調査するために使用されたシミュレーション。 タイプIエラーシミュレーション すべての計算はRで行われました。 1つのコントロールグループ(μcμcμ_c)と5つの処理グループ(μ1−5μ1−5μ_{1−5})を含む要因計画のデータをシミュレーションしました。存在量は、固定分散パラメーター(θ= 3.91)の負の二項分布から抽出されました。存在量はすべての処理で同等でした。 シミュレーションでは、サンプルサイズ(3、6、9、12)とアバンダンス(2、4、8、...、1024)を変化させました。100のデータセットが生成され、負の二項GLM(MASS:::glm.nb())、準ポアソンGLM(glm(..., family = 'quasipoisson')およびガウスGLM +対数変換データ(lm(...))を使用して分析されました。 尤度比検定(lmtest:::lrtest())(ガウスGLMおよび否定ビンGLM)とF検定(ガウスGLMおよび準ポアソンGLM)(anova(...test = 'F'))を使用して、モデルをnullモデルと比較しました。 必要に応じてRコードを提供できますが、私の関連する質問についてはこちらもご覧ください。 結果 サンプルサイズが小さい場合、LRテスト(緑-負のビン;赤-ガウス)により、Type-Iエラーが増加します。F検定(青-ガウス、紫-準ポアソン)は、小さいサンプルサイズでも機能するようです。 LRテストでは、LMとGLMの両方で同様の(増加した)タイプIエラーが発生します。 興味深いことに、準ポアソンはかなりうまく機能します(ただし、F検定でも機能します)。 予想どおり、サンプルサイズが増加すると、LR-Testも適切に実行されます(漸近的に正しい)。 サンプルサイズが小さい場合、GLMにはいくつかの収束の問題(表示されていません)がありましたが、存在量が少ない場合のみであるため、エラーの原因は無視できます。 ご質問 データがneg.binから生成されたことに注意してください。モデル-したがって、GLMが最高のパフォーマンスを発揮することを期待していました。ただし、この場合、変換された存在量の線形モデルのパフォーマンスが向上します。準ポアソン(F検定)についても同様です。これは、F検定が小さいサンプルサイズでよりよく機能しているためと考えられます。これは正しいですか、なぜですか LR-Testは、症状がないため、うまく機能しません。改善の可能性はありますか? GLMのパフォーマンスが向上する可能性のある他のテストはありますか?GLMのテストを改善するにはどうすればよいですか? サンプルサイズが小さいカウントデータには、どのタイプのモデルを使用する必要がありますか? 編集: 興味深いことに、二項GLMのLR-Testはかなりうまく機能します。 ここで、上記と同様の設定で、二項分布からデータを描画します。 赤:ガウスモデル(LRテスト+アルクシン変換)、黄土色:二項GLM(LRテスト)、緑:ガウスモデル(Fテスト+アルクシン変換)、青:準二次GLM(Fテスト)、紫:非パラメトリック。 ここでは、ガウスモデル(LR-Test + arcsin変換)のみがType Iエラーの増加を示していますが、GLM(LR-Test)はType Iエラーの点でかなり優れています。そのため、ディストリビューションにも違いがあるようです(または、glmとglm.nbの違いはありますか?)。

1
混合効果の可能性と推定ロジスティック回帰
最初に、固定部分とランダム部分を持つロジスティック回帰のデータをシミュレートします。 set.seed(1) n <- 100 x <- runif(n) z <- sample(c(0,1), n, replace=TRUE) b <- rnorm(2) beta <- c(0.4, 0.8) X <- model.matrix(~x) Z <- cbind(z, 1-z) eta <- X%*%beta + Z%*%b pr <- 1/(1+exp(-eta)) y <- rbinom(n, 1, pr) ランダムな部分がないロジスティック回帰を近似したいだけの場合は、次のglm関数を使用できます。 glm(y~x, family="binomial") glm(y~x, family="binomial")$coefficients # (Intercept) x # -0.2992785 …

1
スプライン(mgcvからのgrtも含む)の合計(または平均)センタリング制約はどの程度正確に行われますか?
データ生成プロセスは次のとおりです:y=sin(x+I(d=0))+sin(x+4∗I(d=1))+I(d=0)z2+3I(d=1)z2+N(0,1)y=sin(x+I(d=0))+sin(x+4∗I(d=1))+I(d=0)z2+3I(d=1)z2+N(0,1)y = \text{sin}\Big(x+I(d=0)\Big) + \text{sin}\Big(x+4*I(d=1)\Big) + I(d=0)z^2 + 3I(d=1)z^2 + \mathbb{N}\left(0,1\right) ましょx,zx,zx,zからの配列である−4−4-4に444長さの100100100およびddd対応する因子であることがd∈{0,1}d∈{0,1}d\in\{0,1\}。すべての可能な組み合わせを取り、yx,z,dx,z,dx,z,dを計算します。 yyy (中心化されていない)Bスプライン基準を使用するとx,zx,zx,z、各レベルのzはddd、parity-of-unity-property(行の合計が1)によって実現できなくなります。このようなモデルは識別できません(切片がない場合でも)。 例:(設定:5つの内部ノット間隔(均一に分布)、次数2のBスプライン、- spline関数はカスタムのもの) # drawing the sequence n <- 100 x <- seq(-4,4,length.out=n) z <- seq(-4,4,length.out=n) d <- as.factor(0:1) data <- CJ(x=x,z=z,d=d) set.seed(100) # setting up the model data[,y := sin(x+I(d==0)) + sin(x+4*I(d==1)) + I(d==0)*z^2 + 3*I(d==1)*z^2 …

2
連続変数の教師なし離散化の正当化は何ですか?
多くの出典は、統計分析の前に連続変数の離散化(分類)の多くの負の結果があることを示唆しています(以下の参考文献のサンプル[1]-[4])。 逆に[5]は、連続変数が離散化された場合に一部の機械学習手法がより良い結果を生成することが知られていることを示唆しています(教師付き離散化手法のパフォーマンスが高いことにも注意)。 統計的な観点から、この慣行に広く受け入れられているメリットや正当化があるかどうか知りたいのですが。 特に、GLM分析内の連続変数を離散化する正当な理由はありますか? [1] Royston P、Altman DG、Sauerbrei W.重回帰で連続予測子を二分する:悪い考え。Stat Med 2006; 25:127-41 [2] Brunner J、オースティンPC。独立変数がエラーで測定された場合の重回帰におけるタイプIエラー率のインフレ。カナダ統計ジャーナル2009; 37(1):33-46 [3]アーウィンJR、マクレランドGH。連続予測子変数を二分することの負の結果。ジャーナルオブマーケティングリサーチ2003; 40:366–371。 [4]ハレルJr FE。連続変数の分類によって引き起こされる問題。http://biostat.mc.vanderbilt.edu/twiki/bin/view/Main/CatContinuous、2004。2004年6.9。にアクセス [5] Kotsiantis、S。Kanellopoulos、D.「離散化手法:最近の調査」。GESTS International Transactions on Computer Science and Engineering 32(1):47–58。

2
膨らんだカウントデータモデルがないのはなぜですか?
このpsclパッケージを使用して、インフレがゼロのカウントデータモデルに取り組んでいます。なぜ、1カウントのカウントデータモデルのモデルが開発されていないのだろう。また、なぜバイモーダル、つまりゼロおよび2インフレのカウントデータモデルの開発がないのですか。一度膨らませたポアソンデータを生成すると、glmwith family=poissonモデルも負の二項(glm.nb)モデルもデータにうまく適合するには不十分であることがわかりました。誰かが私の考えに光を当てることができれば、それは偏心かもしれませんが、それは私にとって非常に役に立ちます。

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.