統計とビッグデータ generalized-linear-model

5

私の分野では、ペアのデータをプロットする通常の方法は、2つのグループの中央値と中央値のCIでオーバーレイする一連の細い傾斜線セグメントとしてです。ただし、この種のプロットは、データポイントの数が非常に大きくなるため（私の場合、1万ペア程度）、読みにくくなります。アルファを減らすことは少し助けになりますが、それでもまだ素晴らしいとは言えません。解決策を探しているときに、このホワイトペーパーに出くわし、「平行線プロット」を実装することにしました。繰り返しますが、これは少数のデータポイントに対して非常にうまく機能します。 NNN たとえば、ボックスプロットやバイオリンを使用して2つのグループの分布を個別に表示し、2つの中央値/ CIを示す上部にエラーバーを付けて線をプロットすることはできると思いますが、それは伝えられないので、私は本当にその考えが好きではありません。データのペアの性質。また、2D散布図のアイデアにあまり熱心ではありません。よりコンパクトな表現が理想的です。理想的には、2つのグループの値が同じ軸に沿ってプロットされている表現が望ましいです。完全を期すために、データは2D散布図のようになります。非常に大きなサンプルサイズでペアのデータを表すより良い方法を誰かが知っていますか？いくつかの例にリンクしていただけませんか？編集するすみません、私が探しているものを説明するのに十分な仕事をしていないのは明らかです。はい、2D散布図は機能します。ポイントの密度をよりよく伝えるために、2D散布図を改善する方法はたくさんあります-カーネル密度推定に従ってドットを色分けして、2Dヒストグラムを作成できます、等高線をドットの上などにプロットできます... しかし、これは私が伝えようとしているメッセージに対してはやり過ぎだと思います。ポイント自体の 2D密度を表示することについては特に気にしません-必要なのは、「棒」の値が「点」の値よりも一般的に大きいことを、できるだけ単純かつ明確な方法で示すことだけです。、そしてデータの本質的なペアの性質を失うことなく。理想的には、2つのグループのペアの値を直交軸ではなく同じ軸に沿ってプロットしたいのです。これにより、視覚的に比較することが容易になります。多分散布図より良い選択肢はありませんが、うまくいく可能性のある代替案があるかどうか知りたいのですが。

9 generalized-linear-model data-visualization modeling interpretation paired-data

1

マルチレベルのロジスティック回帰モデルの推定

レベル1（個別レベル）に1つの説明変数とレベル2（グループレベル）に1つの説明変数を持つ次のマルチレベルロジスティックモデル： logit(pij)=π0j+π1jxij…(1)logit(pij)=π0j+π1jxij…(1)\text{logit}(p_{ij})=\pi_{0j}+\pi_{1j}x_{ij}\ldots (1) π0j=γ00+γ01zj+u0j…(2)π0j=γ00+γ01zj+u0j…(2)\pi_{0j}=\gamma_{00}+\gamma_{01}z_j+u_{0j}\ldots (2) π1j=γ10+γ11zj+u1j…(3)π1j=γ10+γ11zj+u1j…(3)\pi_{1j}=\gamma_{10}+\gamma_{11}z_j+u_{1j}\ldots (3) ここで、グループレベルの残差およびは、期待値がゼロの多変量正規分布であると想定されます。残差誤差の分散はとして指定され、残差誤差の分散はとして指定されます。u0ju0ju_{0j}u1ju1ju_{1j}u0ju0ju_{0j}σ20σ02\sigma^2_0u1ju1ju_{1j}σ21σ12\sigma^2_1 モデルのパラメーターを推定したいのですが、Rcommand を使用したいと思います glmmPQL。式（1）に式（2）と（3）を代入すると、 logit(pij)=γ00+γ10xij+γ01zj+γ11xijzj+u0j+u1jxij…(4)logit(pij)=γ00+γ10xij+γ01zj+γ11xijzj+u0j+u1jxij…(4)\text{logit}(p_{ij})=\gamma_{00}+\gamma_{10}x_{ij}+\gamma_{01}z_j+\gamma_{11}x_{ij}z_j+u_{0j}+u_{1j}x_{ij}\ldots (4) 30のグループと各グループに5つの個人があります。(j=1,...,30)(j=1,...,30)(j=1,...,30) Rコード： #Simulating data from multilevel logistic distribution library(mvtnorm) set.seed(1234) J <- 30 ## number of groups n_j <- rep(5,J) ## number of individuals in jth group N <- sum(n_j) g_00 <- -1 g_01 …

9 r logistic generalized-linear-model simulation multilevel-analysis

3

一部の観測値のオフセット変数が0であるカウントデータのモデリング

私は同僚の学生を助けようとしています。学生は実験的なセットアップで鳥の行動（鳴き声の数）を観察して数えました。各実験中に特定の観察された鳥に起因する呼び出しの数は特定できませんでしたが、記録された呼び出しの数に貢献した鳥の数を数えることは可能でした。したがって、私の最初の提案は、鳥の数をポアソンGLMモデルのオフセット項として含めることでした。そのため、鳥ごとの予想される呼び出し数を当てはめます。 log(0)=−inflog⁡(0)=−inf\log(0) = -\infy-Infoffset(log(nbirds))-Inf 私は実際に、「観測されたコール」のための別個の二項モデルがあるハードルモデル（または同様のモデル）が必要だと思います。（またはそうでない）と、呼び出しがあった状況での（鳥ごとの）呼び出し数の切り捨てカウントモデル。オフセット項はモデルのカウント部分にのみ含めます。 R のpsclパッケージを使用してこれを試しましたが、それでも同じエラーが発生します。 mod1 <- hurdle(NumberCallsCOPO ~ Condition * MoonVis + offset(log(NumberCOPO)) | 1, data = Data, dist = "poisson") 同じRコード（カウントモデルパーツを適合glm.fitさhurdle()せるためにによって内部的に使用されます）がチェックし-Infているのは、これらの観測に対するモデルの適合に影響を与えるとは思わないからです。（それは正しい仮定ですか？） NumberCOPO（たとえば0.0001）に小さな数を追加することでモデルをフィットさせることができますが、これはせいぜいファッジです。この小さな導通補正を追加しても実際には問題ないでしょうか？そうでない場合、Poissonモデルでオフセット変数を使用して値を0にできるデータを処理するときに、他にどのようなアプローチを検討する必要がありますか？私が遭遇したすべての例は、オフセット変数に0が不可能な状況のためのものです。

9 generalized-linear-model count-data offset

1

二項応答に対する異分散一般化線形モデルのあてはめ

次の実験計画のデータがあります。私の観察はK、対応する試行数（）のうち成功した数（）の数であり、各個人からN構成される2つのグループに対して測定されたI、T処理からの、そのような各因子の組み合わせにR反復がある。したがって、全体で2 * I * T * R Kと対応するNがあります。データは生物学からのものです。それぞれの個体は、2つの代替形態（代替スプライシングと呼ばれる現象による）の発現レベルを測定する遺伝子です。したがって、Kは1つの形式の発現レベルであり、Nは2つの形式の発現レベルの合計です。単一の表現されたコピーにおける2つの形式間の選択は、ベルヌーイ実験であると想定されるため、NのうちKコピーは二項式に従います。各グループは約20の異なる遺伝子で構成され、各グループの遺伝子は2つのグループ間で異なるいくつかの共通の機能を持っています。各グループの各遺伝子について、3つの異なる組織（処理）のそれぞれから約30の測定値があります。グループと治療がK / Nの分散に与える影響を推定したいと思います。遺伝子発現は過剰に分散していることがわかっているため、以下のコードでは負の二項式を使用しています。たとえば、Rシミュレートされたデータのコード： library(MASS) set.seed(1) I = 20 # individuals in each group G = 2 # groups T = 3 # treatments R = 30 # replicates of each individual, in each group, in each treatment groups = letters[1:G] …

9 r generalized-linear-model heteroscedasticity log-linear dglm

5

ビッグデータのロジスティック回帰

約5000の機能のデータセットがあります。そのデータについて、私は最初に特徴の選択にカイ二乗検定を使用しました。その後、応答変数と有意な関係を示す変数を約1500個取得しました。ここでロジスティック回帰を当てはめる必要があります。私はRにglmultiパッケージを使用しています（glmultiパッケージはvlmの効率的なサブセット選択を提供します）が、一度に30の機能しか使用できません。それ以外の場合、データセットの行数が約20000であるため、パフォーマンスが低下します。上記の問題を解決する他のアプローチや手法はありますか？上記の方法で行くと、モデルを合わせるのに時間がかかりすぎます。

9 r logistic generalized-linear-model modeling regression-strategies

2

負の二項回帰のピアソンの残差が、ポアソン回帰の残差よりも小さいのはなぜですか？

私はこれらのデータを持っています： set.seed(1) predictor <- rnorm(20) set.seed(1) counts <- c(sample(1:1000, 20)) df <- data.frame(counts, predictor) ポアソン回帰を実行しました poisson_counts <- glm(counts ~ predictor, data = df, family = "poisson") そして負の二項回帰： require(MASS) nb_counts <- glm.nb(counts ~ predictor, data = df) 次に、ポアソン回帰の分散統計を計算しました。 sum(residuals(poisson_counts, type="pearson")^2)/df.residual(poisson_counts) # [1] 145.4905 そして負の二項回帰： sum(residuals(nb_counts, type="pearson")^2)/df.residual(nb_counts) # [1] 0.7650289 式を使用せずに、負の二項回帰の分散統計がポアソン回帰の分散統計よりもかなり小さい理由を誰かが説明できますか？

9 generalized-linear-model residuals negative-binomial poisson-regression dispersion

2

一般化線形モデルによるパラメーター推定

デフォルトglmでは、Rで関数を使用する場合、反復再重み付け最小二乗（IWLS）メソッドを使用して、パラメーターの最尤推定を見つけます。さて、二つ質問があります。 IWLS推定は、尤度関数のグローバル最大値を保証しますか？このプレゼンテーションの最後のスライドに基づいて、私はそうではないと思います！それを確かめたかっただけです。上記の質問1の理由は、ほとんどすべての数値最適化メソッドがグローバルな最大値ではなくローカルな最大値でスタックする可能性があるという事実のためであると言えるでしょうか？

9 r estimation generalized-linear-model maximum-likelihood optimization

2

一般化線形モデルの仮定

「適用された回帰のRコンパニオン」の232ページでFoxとWeisbergのメモガウスファミリーのみが一定の分散を持ち、他のすべてのGLMでは、でのyの条件付き分散はμ （x ）に依存します。バツバツ\bf{x}μ （x ）μ（バツ）\mu(x) 以前、彼らはポアソンの条件付き分散があることに注意と二項のつまりμ （1 - μ ）μμ\mu。μ （1 - μ ）Nμ（1−μ）N\frac{\mu(1-\mu)}{N} ガウスの場合、これはよく知られており、頻繁に確認される仮定（ホモスケダスティシティ）です。同様に、ポアソン回帰の仮定として論じられるポアソンの条件付き分散は、違反された場合の救済策（たとえば、負の二項、ゼロ膨張など）とともによく見ます。それでも、議論された二項分布の条件付き分散をロジスティック回帰の仮定として見たことはありません。少しグーグルでそれについての言及は見つかりませんでした。ここで何が欠けていますか？ @whuberのコメントに続く編集：提案されたように、私はホスマーとレメショーを見ています。それは興味深いものであり、私（そしておそらく他の人々）が混乱している理由を示していると思います。たとえば、「仮定」という単語は本の索引にはありません。さらに、これがあります（p。175）ロジスティック回帰では、モデルが当てはまるという仮説のもとでの診断の分布は特定の限られた設定でのみ知られているため、主に視覚的な評価に依存する必要がありますかなりの数のプロットが表示されますが、さまざまな残差と推定確率の散布図に集中しています。これらのプロット（優れたモデルであっても、OLS回帰の類似したプロットに特徴的な「ぼんやりとした」パターンの特徴がないため、判断が困難です。さらに、クォンタイルプロットに類似したものは何も表示されません。 Rでは、plot.lmはモデルを評価するための優れたデフォルトのプロットセットを提供します。一部のパッケージに含まれている可能性がありますが、ロジスティック回帰に相当するものは知りません。これは、モデルのタイプごとに異なるプロットが必要になるためと考えられます。SASは、PROC LOGISTICでいくつかのプロットを提供します。これは確かに混乱の可能性がある領域のようです！

9 logistic generalized-linear-model

1

ロジスティック回帰における巨大な係数-それは何を意味し、何をすべきか？

私はロジスティック回帰の間に巨大な係数を取得しkrajULKVます。 > summary(m5) Call: glm(formula = cbind(ml, ad) ~ rok + obdobi + kraj + resid_usili2 + rok:obdobi + rok:kraj + obdobi:kraj + kraj:resid_usili2 + rok:obdobi:kraj, family = "quasibinomial") Deviance Residuals: Min 1Q Median 3Q Max -2.7796 -1.0958 -0.3101 1.0034 2.8370 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -486.72087 …

9 regression logistic generalized-linear-model separation

1

カテゴリー変数と連続変数の間の相互作用の係数の解釈

連続変数とカテゴリー変数間の相互作用の係数の解釈について質問があります。これが私のモデルです： model_glm3=glm(cog~lg_hag+race+pdg+sex+as.factor(educa)+(lg_hag:as.factor(educa)), data=base_708) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 21.4836 2.0698 10.380 < 2e-16 *** lg_hag 8.5691 3.7688 2.274 0.02334 * raceblack -8.4715 1.7482 -4.846 1.61e-06 *** racemexican -3.0483 1.7073 -1.785 0.07469 . racemulti/other -4.6002 2.3098 -1.992 0.04687 * pdg 2.8038 0.4268 6.570 1.10e-10 *** sexfemale 4.5691 1.1203 …

9 categorical-data generalized-linear-model interaction interpretation

1

線形およびロジスティック回帰の誤差分布

連続データの場合、線形回帰は、誤差項が分布N（0、）でと想定しますσ 2Y=β1+β2X2+uY=β1+β2X2+uY=\beta_1+\beta_2X_2+uσ2σ2\sigma^2 1）Var（Y | x）も同様に〜N（0、）であると想定しますか？σ2σ2\sigma^2 2）ロジスティック回帰のこのエラー分布は何ですか？"Y"が1または0の場合、データがケースごとに1レコードの形式である場合、エラー項は分散されたベルヌーイ（つまり、分散はp（1-p）です）であり、データが形式＃の場合#of試行のうち成功した場合、それは2項式（つまり、分散はnp（1-p））と見なされますか。ここで、pはYが1である確率です。

9 logistic generalized-linear-model

1

Rゼロインフレカウントデータ回帰から標準エラーを取得する方法 [閉まっている]

閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新することがありますので、話題のクロス検証済みのため。 2年前休業。次のコード PredictNew <- predict (glm.fit, newdata = Predict, X1 =X1, Y1= Y1, type = "response", se.fit = TRUE) 3列のdata.frame--PredictNew、近似値、標準誤差、残差スケール項を生成します。パーフェクト...しかし、以下を備えたモデルを使用しzeroinfl {pscl}ます： PredictNew <- predict (zeroinfl.fit, newdata = Predict, X1 =X1, Y1= Y1, type = "response", se.fit = TRUE) または PredictNew <- predict (zeroinfl.fit, newdata = Predict, …

9 r generalized-linear-model count-data zero-inflation

2

ランダムな勾配と切片を使用したポアソンGLM混合モデルの近似

現在、一連のポアソン時系列モデルに取り組んでいます。カウントの取得方法の変更（ある診断テストから別のテストへの切り替え）の影響を推定しながら、他の傾向を経時的に制御しています（たとえば、病気の発生率）。さまざまなサイトのデータがあります。私もGAMをいじくり回してきましたが、一連のかなり基本的なGLMに時間の傾向を合わせて、結果をプールしました。このためのコードは、SASでは次のようになります。 PROC GENMOD data=work.data descending; model counts = dependent_variable time time*time / link=log dist = poisson; run; またはこれはRで： glm(counts ~ dependent_variable + time + time*time, family="poisson") 次に、それらの見積もりを取得し、さまざまなサイトにプールします。また、プールするのではなく、ランダムな傾斜と各サイトのインターセプトを含むポアソン混合モデルを使用することをお勧めします。したがって、基本的に、dependent_variableの固定効果があり、次に切片と時間（または理想的には時間と時間^ 2のランダム効果）があります。私の問題は、これらのモデルの1つをどのように合わせるかわからないことです。混合モデルでは、みんなのドキュメントが突然非常に不透明になるようです。誰もが私が適合しようとしているものを適合させる方法、および何を注意すべきかについて簡単な説明（またはコード）を持っていますか？

9 mixed-model generalized-linear-model poisson-distribution random-effects-model

1

ロジスティック回帰：グループ化された変数とグループ化されていない変数（Rを使用）

私はA. Agresti（2007）、An Introduction to Categorical Data Analysis、2ndを読んでいます。版であり、この段落（p.106、4.2.1）を正しく理解しているかどうかはわかりません（ただし、簡単なはずです）。前章のいびきと心疾患に関する表3.1では、254人の被験者が毎晩いびきを報告しており、そのうち30人が心疾患を患っていました。データファイルにグループ化されたバイナリデータがある場合、データファイルの行は、これらのデータをサンプルサイズ254のうち30例の心臓病として報告します。データファイルにグループ化されていないバイナリデータがある場合、データファイルの各行は、個別の主題なので、30行には心疾患の1が含まれ、224行には心疾患の0が含まれます。ML推定値とSE値は、どちらのタイプのデータファイルでも同じです。グループ化されていないデータのセット（1つは依存、1つは独立）を変換すると、すべての情報を含めるのに「1行」以上かかることになります！？次の例では、（非現実的な！）単純なデータセットが作成され、ロジスティック回帰モデルが構築されます。グループ化されたデータは実際にはどのように見えますか（変数タブ？）グループ化されたデータを使用して同じモデルをどのように構築できますか？ > dat = data.frame(y=c(0,1,0,1,0), x=c(1,1,0,0,0)) > dat y x 1 0 1 2 1 1 3 0 0 4 1 0 5 0 0 > tab=table(dat) > tab x y 0 1 0 2 1 1 1 1 > …

9 r generalized-linear-model logistic

1

オフセットでGLMポアソンを予測

これはおそらく基本的な質問だと思います...しかし、私は答えを見つけられないようです。私はGLMをポアソンファミリに適合させてから、予測を確認しようとしましたが、オフセットが考慮されているようです。 model_glm=glm(cases~rhs(data$year,2003)+lhs(data$year,2003), offset=(log(population)), data=data, subset=28:36, family=poisson()) predict (model_glm, type="response") レートではなくケースが表示されます... 私も試しました model_glm=glm(cases~rhs(data$year,2003)+lhs(data$year,2003)+ offset(log(population)), data=data, subset=28:36, family=poisson()) 同じ結果。ただし、mgcvを使用してGAMから予測する場合、予測ではオフセットを考慮します（レートを取得します）。何か不足していますか？

9 r generalized-linear-model prediction offset

タグ付けされた質問 「generalized-linear-model」

タグ付けされた質問「generalized-linear-model」