統計とビッグデータ generalized-linear-model

2

バイナリ固定因子予測子が1つだけのバイナリロジスティック回帰があります。私がカイ二乗法またはフィッシャーの正確確率検定としてそれを行わない理由は、ランダムな要因もいくつかあるためです（個人ごとに複数のデータポイントがあり、個人はグループに属していますが、係数や有意性は気にしません）これらの確率変数の場合）。R glmerでこれを行います。予測因子の係数と関連する信頼区間をオッズ比ではなくリスク比として表現できるようにしたいと思います。これは（おそらくあなたではなく私の聴衆にとって）リスク比がはるかに理解しやすいためです。ここでのリスク比は、予測子が0ではなく1の場合に、結果が0ではなく1になる確率の相対的な増加です。オッズ比は、exp（）を使用して係数と関連するCIから取得するのは簡単です。オッズ比をリスク比に変換するには、「RR = OR /（1 – p +（px OR））を使用できます。ここで、pはコントロールグループのリスクです」（出典：http：//www.r- bloggers.com/how-to-convert-odds-ratios-to-relative-risks/）。しかし、コントロールグループのリスクが必要です。これは、私の場合、予測子が0の場合に結果が1になる可能性を意味します。モデルの切片係数は、実際にはこのチャンスのオッズであると考えているので、これを取得するには、prob = odds /（odds + 1）を使用します。リスク比率の中心的な見積もりが行く限り、私はこれについてはかなり遠いところにいます。ただし、切片係数にも独自のCIが関連付けられているため、心配なのは関連する信頼区間です。切片の中央推定値を使用する必要がありますか、それとも保守的であるために、切片CIの制限を使用して相対リスクCIを最も広くする必要がありますか？それとも私は間違った木を完全に吠えていますか？

8 r logistic generalized-linear-model odds-ratio relative-risk

3

GLMがモードではなく平均を予測するのはなぜですか？

GLMが信号のモードではなく平均を予測するのはなぜですか？これは、GLMの背後にある基本、つまり最尤法と矛盾していませんか？GLMのモデルパラメーターを解くための方程式は、モデル化された信号の確率分布によって記述される尤度の最大化に基づいています。この確率分布は、平均ではなくモードの最大値です（正規分布は例外です：モードと平均の両方が同じです）。したがって、GLMは信号の平均ではなくモードを予測する必要があります。（この質問の背景については、こちらを参照してください。）

8 generalized-linear-model maximum-likelihood mean mode

2

Rのポアソンデータの対数対平方根リンク

現在、RのGLMを使用して、エイズによる死亡のモデル化に取り組んでいます。ポアソンデータのリンク関数には、対数と平方根の2つのオプションがあることを知っています。平方根はばらつきの問題を解決するのに対し、対数は曲線をまっすぐにする必要があることを知っています。しかし、どのリンクがデータに適しているかを実際にテストするにはどうすればよいですか？

8 regression generalized-linear-model poisson-distribution link-function

1

回帰木の末端ノードにおけるGLMの利点？

そのため、データから回帰ツリーを成長させて枝刈りし、ツリーのターミナルノードにGLMを適合させるアルゴリズムを書くというアイデアを試しています。私はアイデアを読み上げようとしてきましたが、テクニックの一貫した名前を見つけることができないようです。私はそれをハイブリッド回帰ツリー（HRT）、モデルツリー、および機能ツリーとして読みました。これらの用語での検索はほとんどありません。これに別の名前がないのですか？これの有効性に関する研究はどこにありますか？

8 regression generalized-linear-model cart

1

アイデンティティリンクを持つR二項ファミリー

Rで線形モデルをに適合させたいのですfamily=binomial(link="identity")が、2項族にはアイデンティティリンクがありません。私は何をすべきか？

8 r generalized-linear-model binomial link-function

3

分布を見つけて正規分布に変換する

1時間にイベントが発生する頻度（「1時間あたりの数」、nph）とイベントが持続する時間（「1秒あたりの秒数」、dph）を説明するデータがあります。これは元のデータです： nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, 15.3750000002237, NA, 6.00000000004109, 9.71428571436649, 12.4848484848485, 16.5034965037115, 20.6666666666667, 3.49999999997453, 4.65882352938624, 4.74999999996544, 3.99999999994522, 2.8, 14.2285714286188, 11.0000000000915, NA, 2.66666666666667, 3.76470588230138, 4.70588235287673, 13.2727272728677, 2.0000000000137, 18.4444444444444, 17.5555555555556, 14.2222222222222, 2.00000000001663, 4, 8.46153846146269, 19.2000000001788, 13.9024390245481, 13, 3.00000000004366, NA, …

8 normal-distribution data-transformation logistic generalized-linear-model ridge-regression t-test wilcoxon-signed-rank paired-data naive-bayes distributions logistic goodness-of-fit time-series eviews ecm panel-data reliability psychometrics validity cronbachs-alpha self-study random-variable expected-value median regression self-study multiple-regression linear-model forecasting prediction-interval normal-distribution excel bayesian multivariate-analysis modeling predictive-models canonical-correlation rbm time-series machine-learning neural-networks fishers-exact factorisation-theorem svm prediction linear reinforcement-learning cdf probability-inequalities ecdf time-series kalman-filter state-space-models dynamic-regression index-decomposition sampling stratification cluster-sample survey-sampling distributions maximum-likelihood gamma-distribution

2

繰り返し再重み付けされた最小二乗法がロジスティック回帰に使用されたときに収束しない理由は何ですか？

私はRでglm.fit関数を使用して、パラメーターをロジスティック回帰モデルに適合させています。デフォルトでは、glm.fitは繰り返し重み付けされた最小二乗法を使用してパラメーターを近似します。このアルゴリズムをロジスティック回帰に使用すると、収束に失敗する理由は何ですか？

8 r logistic generalized-linear-model convergence irls

2

ロジスティック回帰で係数間の関係を強制する方法はありますか？

次の関係があるロジスティック回帰モデルを指定したいと思います。 FE[ Y私| バツ私] = f（βバツ私1+ β2バツ私2）E[Yi|Xi]=f(βxi1+β2xi2)E[Y_i|X_i] = f(\beta x_{i1} + \beta^2x_{i2})ここで、は逆ロジット関数です。fff 既存のR関数でこれを行う「迅速な」方法はありますか、またはこのようなモデルの名前はありますか？私はロジスティック回帰に使用されるNewton-Raphsonアルゴリズムを変更できることを理解していますが、これは多くの理論的およびコーディング作業であり、ショートカットを探しています。編集：確率を最大化するためにRのoptim（）または他のオプティマイザーを使用して、ポイント推定値を取得することは非常に簡単です。しかし、私はこれらの人の標準エラーが必要です。ββ\beta

8 r logistic generalized-linear-model nonlinear-regression

1

ポアソンGLM（対数リンク関数）の説明された分散の測定

（ログリンク関数を使用して）ポアソンGLMの「説明された分散」の適切な尺度を探しています。私はいくつかの異なるリソース（このサイトと他の場所の両方で）を見つけましたが、いくつかの異なる擬似対策について説明していますが、ほぼすべてのサイトで、ロジットリンク関数に関連する対策について言及していますが、疑似測度が、私のポワシオン分布GLMの対数リンクなどの他のリンク関数に適しているかどうかを話し合います。R2R2R^2R2R2R^2 たとえば、ここに私が見つけたいくつかのサイトがあります：ロジスティック回帰（Cox＆SnellまたはNagelkerke）について報告するのは、どの擬似メジャーですか？R2R2R^2 http://thestatsgeek.com/2014/02/08/r-squared-in-logistic-regression/ http://www.ats.ucla.edu/stat/mult_pkg/faq/general/Psuedo_RSquareds.htm 私の質問は次のとおりです。これらのリンクで説明されている方法（特にUCLAページのFAQ）は、Poission GLM（ログリンク機能を使用）に適していますか？他のどの方法よりも特定の方法が適切であるか、標準的に使用されていますか？背景：これは、Poission GLMを使用して神経データを分析している研究論文用です。モデルの偏差（Poission分布を想定して計算）を使用して2つのモデルを比較しています。1つのモデル（A）には、他のモデル（B）から除外された5つのパラメーターが含まれています。私の興味（および論文の焦点）は、5つのパラメーターが統計的にモデルの適合を改善することを示すことです。ただし、レビュー担当者の1人は、両方のモデルがデータにどの程度適合しているかを示したいと考えています。データの適合にOLSを使用していた場合、レビュー担当者は、5つのパラメーターがあるモデルと5つのパラメーターがないモデルの両方の値を効果的に求め、どちらのモデルが分散をどの程度適切に説明しているかを示します。私には合理的な要求のようです。仮に、モデルBのが0.05でモデルAのが0.25であるとします。これは統計的に有意な改善であるとしても、どちらのモデルもデータをうまく説明できません。または、モデルBのが0.5でモデルAのが0.7の場合、非常に異なる方法で解釈される可能性があります。私のGLMと同様の方法で適用できる最も適切な指標を探しています。R2R2R^2R2R2R^2R2R2R^2R2R2R^2R2R2R^2

8 generalized-linear-model poisson-distribution r-squared

1

低いサンプルサイズ：LR vs F-テスト

皆さんの中には、この素晴らしい論文を読んだことがあるかもしれません。 O'Hara RB、Kotze DJ（2010）カウントデータをログ変換しません。生態学と進化の方法1：118–122。クリック。現在、私は、変換されたデータの負の二項モデルをガウスモデルと比較しています。O'Hara RBとは異なり、Kotze DJ（2010）は、サンプルサイズが低く、仮説検定のコンテキストでの特殊なケースを調べています。両方の違いを調査するために使用されたシミュレーション。タイプIエラーシミュレーションすべての計算はRで行われました。 1つのコントロールグループ（μcμcμ_c）と5つの処理グループ（μ1−5μ1−5μ_{1−5}）を含む要因計画のデータをシミュレーションしました。存在量は、固定分散パラメーター（θ= 3.91）の負の二項分布から抽出されました。存在量はすべての処理で同等でした。シミュレーションでは、サンプルサイズ（3、6、9、12）とアバンダンス（2、4、8、...、1024）を変化させました。100のデータセットが生成され、負の二項GLM（MASS:::glm.nb()）、準ポアソンGLM（glm(..., family = 'quasipoisson'）およびガウスGLM +対数変換データ（lm(...)）を使用して分析されました。尤度比検定（lmtest:::lrtest()）（ガウスGLMおよび否定ビンGLM）とF検定（ガウスGLMおよび準ポアソンGLM）（anova(...test = 'F')）を使用して、モデルをnullモデルと比較しました。必要に応じてRコードを提供できますが、私の関連する質問についてはこちらもご覧ください。結果サンプルサイズが小さい場合、LRテスト（緑-負のビン;赤-ガウス）により、Type-Iエラーが増加します。F検定（青-ガウス、紫-準ポアソン）は、小さいサンプルサイズでも機能するようです。 LRテストでは、LMとGLMの両方で同様の（増加した）タイプIエラーが発生します。興味深いことに、準ポアソンはかなりうまく機能します（ただし、F検定でも機能します）。予想どおり、サンプルサイズが増加すると、LR-Testも適切に実行されます（漸近的に正しい）。サンプルサイズが小さい場合、GLMにはいくつかの収束の問題（表示されていません）がありましたが、存在量が少ない場合のみであるため、エラーの原因は無視できます。ご質問データがneg.binから生成されたことに注意してください。モデル-したがって、GLMが最高のパフォーマンスを発揮することを期待していました。ただし、この場合、変換された存在量の線形モデルのパフォーマンスが向上します。準ポアソン（F検定）についても同様です。これは、F検定が小さいサンプルサイズでよりよく機能しているためと考えられます。これは正しいですか、なぜですか LR-Testは、症状がないため、うまく機能しません。改善の可能性はありますか？ GLMのパフォーマンスが向上する可能性のある他のテストはありますか？GLMのテストを改善するにはどうすればよいですか？サンプルサイズが小さいカウントデータには、どのタイプのモデルを使用する必要がありますか？編集：興味深いことに、二項GLMのLR-Testはかなりうまく機能します。ここで、上記と同様の設定で、二項分布からデータを描画します。赤：ガウスモデル（LRテスト+アルクシン変換）、黄土色：二項GLM（LRテスト）、緑：ガウスモデル（Fテスト+アルクシン変換）、青：準二次GLM（Fテスト）、紫：非パラメトリック。ここでは、ガウスモデル（LR-Test + arcsin変換）のみがType Iエラーの増加を示していますが、GLM（LR-Test）はType Iエラーの点でかなり優れています。そのため、ディストリビューションにも違いがあるようです（または、glmとglm.nbの違いはありますか？）。

8 hypothesis-testing generalized-linear-model simulation negative-binomial type-i-and-ii-errors

1

混合効果の可能性と推定ロジスティック回帰

最初に、固定部分とランダム部分を持つロジスティック回帰のデータをシミュレートします。 set.seed(1) n <- 100 x <- runif(n) z <- sample(c(0,1), n, replace=TRUE) b <- rnorm(2) beta <- c(0.4, 0.8) X <- model.matrix(~x) Z <- cbind(z, 1-z) eta <- X%*%beta + Z%*%b pr <- 1/(1+exp(-eta)) y <- rbinom(n, 1, pr) ランダムな部分がないロジスティック回帰を近似したいだけの場合は、次のglm関数を使用できます。 glm(y~x, family="binomial") glm(y~x, family="binomial")$coefficients # (Intercept) x # -0.2992785 …

8 generalized-linear-model maximum-likelihood glmm mixed-model numerical-integration

1

スプライン（mgcvからのgrtも含む）の合計（または平均）センタリング制約はどの程度正確に行われますか？

データ生成プロセスは次のとおりです：y=sin(x+I(d=0))+sin(x+4∗I(d=1))+I(d=0)z2+3I(d=1)z2+N(0,1)y=sin(x+I(d=0))+sin(x+4∗I(d=1))+I(d=0)z2+3I(d=1)z2+N(0,1)y = \text{sin}\Big(x+I(d=0)\Big) + \text{sin}\Big(x+4*I(d=1)\Big) + I(d=0)z^2 + 3I(d=1)z^2 + \mathbb{N}\left(0,1\right) ましょx,zx,zx,zからの配列である−4−4-4に444長さの100100100およびddd対応する因子であることがd∈{0,1}d∈{0,1}d\in\{0,1\}。すべての可能な組み合わせを取り、yx,z,dx,z,dx,z,dを計算します。 yyy （中心化されていない）Bスプライン基準を使用するとx,zx,zx,z、各レベルのzはddd、parity-of-unity-property（行の合計が1）によって実現できなくなります。このようなモデルは識別できません（切片がない場合でも）。例：（設定：5つの内部ノット間隔（均一に分布）、次数2のBスプライン、- spline関数はカスタムのもの） # drawing the sequence n <- 100 x <- seq(-4,4,length.out=n) z <- seq(-4,4,length.out=n) d <- as.factor(0:1) data <- CJ(x=x,z=z,d=d) set.seed(100) # setting up the model data[,y := sin(x+I(d==0)) + sin(x+4*I(d==1)) + I(d==0)*z^2 + 3*I(d==1)*z^2 …

8 r regression generalized-linear-model nonparametric splines

2

連続変数の教師なし離散化の正当化は何ですか？

多くの出典は、統計分析の前に連続変数の離散化（分類）の多くの負の結果があることを示唆しています（以下の参考文献のサンプル[1]-[4]）。逆に[5]は、連続変数が離散化された場合に一部の機械学習手法がより良い結果を生成することが知られていることを示唆しています（教師付き離散化手法のパフォーマンスが高いことにも注意）。統計的な観点から、この慣行に広く受け入れられているメリットや正当化があるかどうか知りたいのですが。特に、GLM分析内の連続変数を離散化する正当な理由はありますか？ [1] Royston P、Altman DG、Sauerbrei W.重回帰で連続予測子を二分する：悪い考え。Stat Med 2006; 25：127-41 [2] Brunner J、オースティンPC。独立変数がエラーで測定された場合の重回帰におけるタイプIエラー率のインフレ。カナダ統計ジャーナル2009; 37（1）：33-46 [3]アーウィンJR、マクレランドGH。連続予測子変数を二分することの負の結果。ジャーナルオブマーケティングリサーチ2003; 40：366–371。 [4]ハレルJr FE。連続変数の分類によって引き起こされる問題。http://biostat.mc.vanderbilt.edu/twiki/bin/view/Main/CatContinuous、2004。2004年6.9。にアクセス [5] Kotsiantis、S。Kanellopoulos、D.「離散化手法：最近の調査」。GESTS International Transactions on Computer Science and Engineering 32（1）：47–58。

8 machine-learning generalized-linear-model categorical-data binning

2

膨らんだカウントデータモデルがないのはなぜですか？

このpsclパッケージを使用して、インフレがゼロのカウントデータモデルに取り組んでいます。なぜ、1カウントのカウントデータモデルのモデルが開発されていないのだろう。また、なぜバイモーダル、つまりゼロおよび2インフレのカウントデータモデルの開発がないのですか。一度膨らませたポアソンデータを生成すると、glmwith family=poissonモデルも負の二項（glm.nb）モデルもデータにうまく適合するには不十分であることがわかりました。誰かが私の考えに光を当てることができれば、それは偏心かもしれませんが、それは私にとって非常に役に立ちます。

8 r generalized-linear-model zero-inflation poisson-regression

2

膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか？

現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます（idは識別目的のみです）。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット（応答変数は含まれるが、含まれない）には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行（この場合は300万行）を投げた場合に潜在的な問題はありますか？計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか？データセットのサイズの問題を完全に説明している本/紙はありますか？

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

タグ付けされた質問 「generalized-linear-model」

タグ付けされた質問「generalized-linear-model」