統計とビッグデータ poisson-distribution

5

7日間に個人が実行したアクションの数を含むデータセットがあります。特定のアクションは、この質問には関係ありません。：ここでは、データ・セットのためのいくつかの記述統計ある RangeMeanVarianceNumber of observations0−77218.22791696Range0−772Mean18.2Variance2791Number of observations696 \begin{array}{|c|c|} \hline \text{Range} & 0 - 772 \\ \hline \text{Mean} & 18.2 \\ \hline \text{Variance} & 2791 \\ \hline \text{Number of observations} & 696 \\ \hline \end{array} これはデータのヒストグラムです：データのソースから判断すると、ポアソン分布に適合すると考えました。ただし、平均≠分散、およびヒストグラムは左側に大きく重み付けされています。さらに、私はgoodfitRでテストを実行し、得ました： > gf <- goodfit(actions,type="poisson", method = "MinChisq") <br> > summary(gf) <br> Goodness-of-fit test for poisson …

11 r distributions poisson-distribution mean sample

1

ポアソン回帰モデルを検証するためのコスト関数

収集したカウントデータについては、ポアソン回帰を使用してモデルを構築しています。これはglm、私が使用するR の関数を使用して行いますfamily = "poisson"。可能なモデルを評価するために（私はいくつかの予測子を持っています）、AICを使用します。ここまでは順調ですね。次に、相互検証を実行します。私はすでにパッケージのcv.glm関数を使用してこれに成功していbootます。ドキュメントのcv.glmIあなたが意味のある予測誤差を取得するには、特定のコスト関数を使用する必要が二項データのためにその例を参照してください。ただし、どのコスト関数がに適しているのかはまだわかりませんfamily = poisson。Googleを広範囲に検索しても、特定の結果は得られませんでした。私の質問はcv.glm、ポアソンglmの場合にどのコスト関数が適切であるかを当てる光が誰にもあるということです。

11 r generalized-linear-model poisson-distribution

2

Rのゼロインフレカウントモデル：本当の利点は何ですか？

ゼロインフレ鳥数を分析するために、Rパッケージpsclを使用してゼロインフレ数モデルを適用したいと思います。ただし、ドキュメントで提供されている主要な関数の1つ（？zeroinfl）の例を見て、これらのモデルの本当の利点は何なのか疑問に思い始めます。そこに示されているサンプルコードに従って、標準のポアソン、準ポアソン、負の二項モデル、単純なゼロ膨張のポアソンモデル、負の二項モデル、ゼロ成分の回帰子を含むゼロ膨張のポアソンモデル、負の二項モデルを計算しました。次に、観測データと適合データのヒストグラムを調べました。（これを複製するためのコードは次のとおりです。） library(pscl) data("bioChemists", package = "pscl") ## standard count data models fm_pois <- glm(art ~ ., data = bioChemists, family = poisson) fm_qpois <- glm(art ~ ., data = bioChemists, family = quasipoisson) fm_nb <- glm.nb(art ~ ., data = bioChemists) ## with simple inflation (no regressors for zero component) …

11 r poisson-distribution zero-inflation

2

ポアソン分布は安定しており、MGFの反転式はありますか？

まず、ポアソン分布が「安定」しているかどうかについて質問があります。非常に素朴です（そして「安定した」分布についてはあまり確信がありません）。MGFの積を使用して、ポアソン分散RVの線形結合の分布を計算しました。個々のRVのパラメーターの線形結合に等しいパラメーターを持つ別のポアソンを取得しているようです。したがって、ポアソンは「安定」していると結論付けます。何が欠けていますか？次に、特性関数の場合と同様にMGFの反転式はありますか？

11 distributions poisson-distribution mgf

1

RでのポアソンGLMの適合-レートとカウントの問題

現在、いくつかのカウントデータのGLM（および最終的にはGAM）を含むプロジェクトに取り組んでいます。通常、私はSASでこれを行いますが、Rに移動しようとしていて、問題があります。以下を使用してデータをカウントするようにGLMを適合させた場合： cdi_model <- glm(counts ~ exposure + covariate + month, data=test, family = poisson) 私は得ます： Deviance Residuals: Min 1Q Median 3Q Max -1.9825 -0.7903 -0.1187 0.5717 1.7649 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.97563 0.20117 9.821 < 2e-16 *** exposure 0.94528 0.30808 3.068 0.00215 ** covariate -0.01317 …

11 r poisson-distribution generalized-linear-model

1

ゼロ膨張ポアソン分布の平均と分散

確率質量関数を使用して、ゼロ膨張ポアソンの期待値と分散をどのように表示できるか f(y)={π+(1−π)e−λ,(1−π)λye−λy!,if y=0if y=1,2....f(y)={π+(1−π)e−λ,if y=0(1−π)λye−λy!,if y=1,2.... f(y) = \begin{cases} \pi+(1-\pi)e^{-\lambda}, & \text{if }y=0 \\ (1-\pi)\frac{\lambda^{y}e^{-\lambda}}{y!}, & \text{if }y=1,2.... \end{cases} ここで、は観測が二項プロセスによってゼロである確率であり、はポアソンの平均であり、導出されますか？ππ\piλλ\lambda 結果は期待値で、分散はです。μ=(1−π)λμ=(1−π)λ\mu =(1-\pi)\lambdaμ+π1−πμ2μ+π1−πμ2\mu+ \frac{\pi}{1-\pi}\mu^{2} 追加：プロセスを探しています。たとえば、モーメント生成関数を使用できますか？結局、ゼロインフレートされたガンマなどをよりよく理解するために、これを行う方法を見たいと思います。

11 variance poisson-distribution expected-value zero-inflation

2

連続データにポアソン回帰を使用していますか？

ポアソン分布を使用して、連続データと離散データを分析できますか？応答変数が連続であるいくつかのデータセットがありますが、正規分布ではなくポアソン分布に似ています。ただし、ポアソン分布は離散分布であり、通常は数値またはカウントに関係しています。

11 distributions regression poisson-distribution continuous-data

1

R / mgcv：なぜte（）とti（）テンソル積が異なる表面を生成するのですか？

のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています（非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか）。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)（わずかに）異なる結果を生成するのかということです。 MWE（から適応?ti）： require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

1

IDリンクを使用したOLSとPoisson GLM

私の質問は、ポアソン回帰とGLMの一般的な理解が不十分であることを示しています。ここに私の質問を説明するためのいくつかの偽のデータがあります： ### some fake data x=c(1:14) y=c(0, 1, 2, 3, 1, 4, 9, 18, 23, 31, 20, 25, 37, 45) 擬似R2を返すカスタム関数： ### functions of pseudo-R2 psuR2 <- function(null.dev, model.dev) { 1 - (model.dev / null.dev)} predR2 <- function(actuals, predicted) { 1 - (sum((actuals - predicted)^2)) / sum((actuals - mean(actuals))^2)} 4つのモデルに適合：OLS、アイデンティティリンク付きガウスGLM、ログリンク付きポアソンGLM、アイデンティティリンク付きポアソンGLM …

11 generalized-linear-model poisson-distribution

3

ポアソンGLMにオフセットを使用する必要がありますか？

私は、2つの異なる水中視覚センサス法を使用した場合の魚密度と魚種の豊富さの違いを調べるための研究を行っています。私のデータは元々はカウントデータでしたが、通常は魚の密度に変更されますが、ポアソンGLMを使用することに決めました。 model1 <- glm(g_den ~ method + site + depth, poisson) 私の3つの予測変数は、メソッド、サイト、および深さです。私の応答変数は、ハタ種の豊富さ、ハタ密度、および他の魚群と同じです。密度は整数ではなく、数値データであることを認識しています（例：1.34849）。私は今このエラーを得ています： In dpois(y, mu, log = TRUE) : non-integer x = 0.037500 私は読んでいて、多くの人がオフセットの使用を提案していますが、これは最も賢明なことですか？

11 r generalized-linear-model poisson-distribution offset

3

ポアソン回帰でロバストな標準誤差を使用するのはいつですか？

カウントデータにポアソン回帰モデルを使用していて、パラメーター推定にロバストな標準誤差を使用しない理由があるかどうか疑問に思っていますか？ロバストなしの推定値の一部は有意ではない（たとえばp = 0.13）が、ロバストありの場合は有意（p <0.01）であるため、私は特に心配しています。 SASでは、これはproc genmod（例repeated subject=patid;）の繰り返しステートメントを使用して利用できます。私が使用してきたhttp://www.ats.ucla.edu/stat/sas/dae/poissonreg.htmを堅牢な標準誤差を使用しての支援でキャメロンとTrivediの（2009）の論文を引用例として。

10 poisson-distribution robust

1

Anova（）とdrop1（）がGLMMに異なる回答を提供したのはなぜですか？

次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル（異なるグループでnが等しくない場合）、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。これらの2つの方法の間に違いがあるのはなぜですか？ GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか？これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか？

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

1

EMアルゴリズムを使用して、ゼロ膨張ポアソンモデルの潜在変数定式化のMLEをどのように計算しますか？

ゼロ膨張ポアソン回帰モデルは、サンプルに対してによって定義されそしてさらに、パラメーターおよび満たすと仮定しますYは、iが = { 0の確率でのp I + （1 - P I）E - λ I kの確率で（1 - P I）E - λ I、λはk個のI / Kを！λ = （λ 1、... 、λ N）P =(y1,…,yn)(y1,…,yn)(y_1,\ldots,y_n)Yi={0kwith probability pi+(1−pi)e−λiwith probability (1−pi)e−λiλki/k!Yi={0with probability pi+(1−pi)e−λikwith probability (1−pi)e−λiλik/k! Y_i = \begin{cases} 0 & \text{with probability} \ p_i+(1-p_i)e^{-\lambda_i}\\ k & \text{with …

10 generalized-linear-model maximum-likelihood poisson-distribution expectation-maximization latent-variable

2

同じですか、それとも違いますか？ベイジアンウェイ

次のモデルがあるとします。 Poisson(λ)∼{λ1λ2if t<τif t≥τPoisson(λ)∼{λ1if t<τλ2if t≥τ\text{Poisson}(\lambda) \sim \begin{cases} \lambda_1 & \text{if } t \lt \tau \\ \lambda_2 & \text{if } t \geq \tau \end{cases} そして私はのための事後推測およびλ 2私のデータから、下に示します。伝える（または定量）のベイズの方法があればそこにあるλ 1およびλ 2があり、同一または異なりますか？λ1λ1\lambda_1λ2λ2\lambda_2λ1λ1\lambda_1λ2λ2\lambda_2 おそらく、測定する確率異なるλ 2をλ1λ1\lambda_1λ2λ2\lambda_2？または、おそらくKL分岐を使用していますか？例えば、どのように測定することができ、又は少なくとも、P （λ 2 > λ 1）を？p(λ2≠λ1)p(λ2≠λ1)p(\lambda_2 \neq \lambda_1)p(λ2>λ1)p(λ2>λ1)p(\lambda_2 \gt \lambda_1) 一般的に、以下に示すように後処理者（両方でゼロでない PDF値を想定）を取得したら、この質問に答える良い方法は何ですか？更新この質問には2つの方法で回答できるようです。 λ1≠λ2λ1≠λ2\lambda_1 \neq \lambda_2λ2>λ1λ2>λ1\lambda_2 > \lambda_1 後世のある種の違いを統合する。そして、それは私の質問の重要な部分です。その統合はどのように見えますか？おそらくサンプリング手法はこの積分を近似するでしょうが、この積分の定式化について知りたいのです。 …

10 distributions bayesian poisson-distribution

3

2つの独立したポアソン確率変数の加重和

ウィキペディアを使用して、2つのポアソン確率変数の合計から生じる確率質量関数を計算する方法を見つけました。しかし、私が持っているアプローチは間違っていると思います。 LET 平均値を有する2つの独立したポアソン確率変数であるλ 1、λ 2、及びS 2 = 1 X 1 + 2 X 2、1及び2は定数、次いで確率発生関数でありますS 2によって与えられる G S 2（Z ）= E （Z S 2）= Eバツ1、X2X1,X2X_1, X_2λ1、λ2λ1,λ2\lambda_1, \lambda_2S2= a1バツ1+ a2バツ2S2=a1X1+a2X2S_2 = a_1 X_1+a_2 X_2a1a1a_1a2a2a_2S2S2S_2 今、ポアソン確率変数の確率発生関数であるという事実使用 G XがI（Z ）= E λ I（Z - 1 ）、我々は、2つの独立したポアソンランダムの和の確率生成関数を書くことができるが変数として GS2（z）= E（zS2）= E（za1バツ1+ a2バツ2）Gバツ1（za1）Gバツ2（za2）。GS2(z)=E⁡(zS2)=E⁡(za1X1+a2X2)GX1(za1)GX2(za2). G_{S_2}(z) = \operatorname{E}(z^{S_2})= \operatorname{E}(z^{a_1 …

10 distributions poisson-distribution

タグ付けされた質問 「poisson-distribution」

タグ付けされた質問「poisson-distribution」