統計とビッグデータ poisson-distribution

2

まれな病気の季節ごとの事件のデータセットがあります。たとえば、春に180件、夏に90件、秋に45件、冬に210件あったとします。これらの数値に標準エラーを添付することが適切かどうかに苦労しています。研究目標は、将来再発する可能性のある疾患発生率の季節的パターンを探しているという意味で推測的です。したがって、合計に不確実性の尺度を付けることが可能であるべきであるように直感的に感じます。ただし、この場合、標準誤差をどのように計算するかはわかりません。なぜなら、平均や比率ではなく単純なカウントを扱っているからです。最後に、答えは、データがケースの集団（発生したすべてのケース）を表すか、ランダムなサンプルを表すかによって異なりますか？間違っていなければ、推論がないため、母集団統計で標準エラーを提示することは一般的に意味がありません。

14 poisson-distribution standard-error count-data

2

二変量ポアソン分布の導出

最近、2変量ポアソン分布に遭遇しましたが、その導出方法について少し混乱しています。分布は次のとおりです。 P(X=x,Y=y)=e−(θ1+θ2+θ0)θx1x!θy2y!∑i=0min(x,y)(xi)(yi)i!(θ0θ1θ2)iP(X=x,Y=y)=e−(θ1+θ2+θ0)θ1xx!θ2yy!∑i=0min(x,y)(xi)(yi)i!(θ0θ1θ2)iP(X = x, Y = y) = e^{-(\theta_{1}+\theta_{2}+\theta_{0})} \displaystyle\frac{\theta_{1}^{x}}{x!}\frac{\theta_{2}^{y}}{y!} \sum_{i=0}^{min(x,y)}\binom{x}{i}\binom{y}{i}i!\left(\frac{\theta_{0}}{\theta_{1}\theta_{2}}\right)^{i} 私が収集できることから、θ0θ0\theta_{0}項はXXXとYの間の相関の尺度YYYです。したがって、XXXとYYYが独立している場合、θ0=0θ0=0\theta_{0} = 0あり、分布は2つの単変量ポアソン分布の積になります。これを念頭に置いて、私の混乱は総和項に基づいています-この項はXXXとYの間の相関を説明すると仮定していYYYます。私には、被加数は「成功」の確率が\ left（\ frac {\ theta_ {0}} {\ theta_ {1} \ theta_ {2}で与えられる二項累積分布関数のある種の積を構成するように思われます} \ right）(θ0θ1θ2)(θ0θ1θ2)\left(\frac{\theta_{0}}{\theta_{1}\theta_{2}}\right)および「失敗」の確率はi！^ {\ frac {1} {min（x、y）-i}}によって与えられます。i!1min(x,y)−ii!1min(x,y)−ii!^{\frac{1}{min(x,y)-i}}なぜなら、(i!1min(x,y)−i!)(min(x,y)−i)=i!(i!1min(x,y)−i!)(min(x,y)−i)=i!\left(i!^{\frac{1}{min(x,y)-i!}}\right)^{(min(x,y)-i)} = i!、しかしこれで大丈夫です。誰かがこの分布をどのように導き出すことができるかについての支援を提供できますか？また、このモデルを多変量シナリオ（3つ以上のランダム変数など）に拡張する方法を回答に含めることができれば、それは素晴らしいことです！（最後に、以前に投稿された同様の質問（2変量ポアソン分布を理解する）があったことに注意しましたが、その導出は実際には調査されませんでした。）

13 distributions mathematical-statistics multivariate-analysis poisson-distribution proof

1

平均ポアソン分布に対しての不偏推定量がないことをどのように示しますか？

仮定する、平均でポアソン分布に従うIIDランダム変数で。量の不偏推定量がないことをどのように証明できますか？X0,X1,…,Xnバツ0、バツ1、…、バツn X_{0},X_{1},\ldots,X_{n} λλ \lambda 1λ1λ \dfrac{1}{\lambda}

13 probability poisson-distribution unbiased-estimator estimators iid

2

ポアソン対ロジスティック回帰

追跡期間が異なる患者のコホートがあります。これまでのところ、私は時間の側面を無視しており、バイナリの結果-疾患/疾患なしをモデル化する必要があります。私は通常これらの研究でロジスティック回帰を行いますが、別の同僚がポアソン回帰が適切かどうか尋ねました。私はポアソンには興味がありません。この設定でポアソンを行うことの利点と欠点がロジスティック回帰と比較されるかどうかについては不明確でした。ポアソン回帰を読んでバイナリ結果の相対リスクを推定しましたが、この状況でのポアソン回帰のメリットについてはまだわかりません。

13 logistic poisson-distribution

2

ポアソン回帰からデータサンプルを生成する

Rのポアソン回帰式からデータを生成する方法を疑問に思っていましたか？私はこの問題へのアプローチ方法を少し混乱させています。私が想定している場合だから我々は2つの予測因子持つ及びX 2に分散されているN （0 、1 ）。そして、切片は0で、係数は両方とも1になります。それから、私の推定は単純に：バツ1バツ1X_1バツ2バツ2X_2N（0 、1 ）N（0、1）N(0,1) ログ（Y）= 0 + 1 ⋅ X1+ 1 ⋅ X2ログ⁡（Y）=0+1⋅バツ1+1⋅バツ2\log(Y) = 0+ 1\cdot X_1 + 1\cdot X_2 しかし、log（Y）を計算したら、それに基づいてポアソンカウントを生成するにはどうすればよいですか？ポアソン分布のレートパラメーターとは何ですか？誰かが素晴らしいポアソン回帰サンプルを生成する簡単なRスクリプトを書くことができたら素晴らしいでしょう！

13 r regression poisson-distribution simulation

5

非常に多数のデータポイントで値の代入を実行する方法は？

非常に大きなデータセットがあり、約5％のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

2

Rのlmer（）でポアソンGLMMの過分散をテストする方法は？

私は次のモデルを持っています： > model1<-lmer(aph.remain~sMFS1+sAG1+sSHDI1+sbare+season+crop +(1|landscape),family=poisson) ...そしてこれは要約出力です。 > summary(model1) Generalized linear mixed model fit by the Laplace approximation Formula: aph.remain ~ sMFS1 + sAG1 + sSHDI1 + sbare + season + crop + (1 | landscape) AIC BIC logLik deviance 4057 4088 -2019 4039 Random effects: Groups Name Variance Std.Dev. landscape (Intercept) …

12 r poisson-distribution lme4-nlme glmm overdispersion

1

カウントデータの非季節化

Rでstl（）を使用して、カウントデータをトレンド、季節、不規則なコンポーネントに分解しました。結果のトレンド値は、もはや整数ではありません。次の質問があります。 stl（）はカウントデータを非季節化する適切な方法ですか？結果のトレンドはもはや整数値ではないため、lm（）を使用してトレンドコンポーネントをモデル化できますか？

12 r time-series poisson-distribution

3

過剰分散カウントデータのポアソン回帰の代替方法の選択

私は現在、すべてが次の指標を使用する一連の行動実験からのデータを分析しています。この実験の参加者は、一連の10個のアナグラムを解決するのに（架空の）他の人が使用できる手がかりを選択するように求められます。参加者は、アナグラムを解く際のパフォーマンスに応じて、これらの他の人々がお金を稼ぐか失うかを信じるように導かれます。手がかりは、それらがどれほど役立つかによって異なります。たとえば、RUNNINGのアナグラムであるアナグラムNUNGRINの場合、3つの手がかりがあります。素早く動く（役に立たない）マラソンレースで行うこと（参考）必ずしも健康的な趣味ではない（役に立たない）メジャーを形成するために、参加者が他の人にとって役に立たない手がかりを選択した回数（10回のうち）をカウントします。実験では、さまざまな異なる操作を使用して、人々が選択する手がかりの有用性に影響を与えています。有用性/有用性の尺度はかなり強く正に歪んでいるため（多くの人が常に最も有用な10の手がかりを選択します）、またこの尺度はカウント変数であるため、これらのデータを分析するためにポアソン一般化線形モデルを使用しています。しかし、ポアソン回帰についてさらに読むと、ポアソン回帰は独立して分布の平均と分散を推定しないため、データセットの分散を過小評価することが多いことを発見しました。準ポアソン回帰や負の二項回帰など、ポアソン回帰の代替案を調査し始めました。しかし、私はこの種のモデルにはかなり慣れていないので、アドバイスを求めてここに来ています。この種のデータに使用するモデルに関する推奨事項はありますか？私が知っておくべき他の考慮事項はありますか（たとえば、ある特定のモデルは他のモデルよりも強力ですか？）選択したモデルがデータを適切に処理しているかどうかを判断するには、どのような診断を検討する必要がありますか？

12 poisson-distribution count-data

3

ポアソン分布の正規近似

ここウィキペディアでそれは言う：値が十分大きい場合（たとえば）、平均と分散（標準偏差）の正規分布は、ポアソン分布の優れた近似です。場合約10より大きい場合、その後、正規分布は、適切な連続性補正が行われた場合、すなわち、良好な近似である（小文字）ここで、負でない整数であることにより、置換されていますλλλλ>1000λ>1000λ>1000λλλλλλλ−−√λ\sqrt{\lambda}λλλP(X≤x),P(X≤x),P(X ≤ x),xxxP(X≤x+0.5).P(X≤x+0.5).P(X ≤ x + 0.5). FPoisson(x;λ)≈Fnormal(x;μ=λ,σ2=λ)FPoisson(x;λ)≈Fnormal(x;μ=λ,σ2=λ)F_\mathrm{Poisson}(x;\lambda) \approx F_\mathrm{normal}(x;\mu=\lambda,\sigma^2=\lambda) 残念ながら、これは引用されていません。私はこれをいくつかの厳密さで示し/証明できるようにしたいです。\ lambda> 1000の場合、正規分布が良い近似であると実際に言うにはどうすればよいですか。この「優れた」近似をどのように定量化し、どの測度を使用しましたか？λ>1000λ>1000\lambda > 1000 私がこれで得た最も遠いところは、ここでジョンがベリーエッセンの定理の使用について話し、2つのCDFのエラーを概算します。私が見ることができることから、彼はλ≥1000λ≥1000\lambda \geq 1000値を試していません。

12 normal-distribution poisson-distribution approximation

4

この場合、ポアソン回帰には線形回帰よりもどのような利点がありますか？

ある高校の生徒が獲得した賞の数を含むデータセットが与えられました。獲得した数の予測には、学生が登録されたプログラムのタイプと数学の最終試験のスコアが含まれます。なぜこの例では線形回帰モデルが適さないのか、そしてなぜポアソン回帰を使用する方が良いのか、誰かが教えてくれるのではないかと思いました。ありがとう。

12 regression generalized-linear-model poisson-distribution count-data

2

JAGSでゼロ膨張ポアソンを設定するにはどうすればよいですか？

RとJAGSでゼロ膨張ポアソンモデルを設定しようとしています。私はJAGSを初めて使用するので、その方法についていくつかのガイダンスが必要です。私は、y [i]が観測された変数である以下を試してみました model { for (i in 1:I) { y.null[i] <- 0 y.pois[i] ~ dpois(mu[i]) pro[i] <- ilogit(theta[i]) x[i] ~ dbern(pro[i]) y[i] <- step(2*x[i]-1)*y.pois[i] + (1-step(2*x[i]-1))*y.null[i] log(mu[i]) <- bla + bla +bla + .... theta[i] <- bla + bla + bla + .... } } ただし、監視変数で<-を使用できないため、これは機能しません。これを変更/修正する方法はありますか？JAGSでゼロ膨張ポアソンモデルを設定する別の方法はありますか？

12 r poisson-distribution jags zero-inflation

1

ポアソン分布からのデータのロジスティック回帰

yがクラスラベル（0または1）であり、xがデータである、いくつかの識別的分類方法、特にロジスティック回帰について話しているいくつかの機械学習ノートから、それは次のように言われます：もし、及びX | Y = 1 〜P 、O 、I 、S 、S 、O 、N（λ 1）、次いで、P （Y | Xは）ロジスティックであろう。x|y=0∼Poisson(λ0)x|y=0∼Poisson(λ0)x|y = 0 \sim \mathrm{Poisson}(λ_0)x|y=1∼Poisson(λ1)x|y=1∼Poisson(λ1)x|y = 1 \sim \mathrm{Poisson}(λ_1)p(y|x)p(y|x)p(y|x) なぜこれが本当ですか？

11 logistic poisson-distribution statistical-learning

1

階層的ガンマポアソンモデルの超優先密度

データ階層モデルでは、は、実際には値（ガンマ分布の平均と分散がデータ平均と分散にほぼ一致するように（たとえば、Clayton and Kaldor、1987 "Empirical Bayes Estimates of Age-Standardized Relative Risks for Disease Mapping"、Biometrics）。明らかに、これはアドホックソリューションにすぎません。パラメータに対する研究者の信頼を誇張するためです。yyyy∼Poisson(λ)y∼Poisson(λ)y \sim \textrm{Poisson}(\lambda) λ∼Gamma(α,β)λ∼Gamma(α,β)\lambda \sim \textrm{Gamma}(\alpha, \beta)α,β)α,β)\alpha, \beta)yyy(α,β)(α,β)(\alpha, \beta)また、基礎となるデータ生成プロセスが同じであっても、実現されたデータのわずかな変動がガンマ密度に大きな影響を与える可能性があります。さらに、Bayesian Data Analysis（2nd Ed）で、Gelmanはこの方法は「だらしない」と書いています。この本とこの論文（p。3232から始まる）では、代わりに、ラット腫瘍の例（p。130から始まる）と同様の方法で、いくつかの超優先密度を選択することを提案しています。p(α,β)p(α,β)p(\alpha, \beta) 有限の事後密度を生成する限りどのも許容できることは明らかですが、過去にこの問題で研究者が使用した超優先密度の例は見つかりませんでした。ポアソンガンマモデルを推定するためにハイパープライオリティを採用した本や記事を誰かに教えてもらえれば幸いです。理想的には、が比較的フラットで、ラットの腫瘍の例のようなデータ、またはいくつかの代替仕様とそれぞれに関連するトレードオフを比較する議論によって支配されることに興味があります。p(α,β)p(α,β)p(\alpha, \beta)p(α,β)p(α,β)p(\alpha, \beta)

11 poisson-distribution gamma-distribution hierarchical-bayesian hyperparameter

2

ポアソン回帰の優れた視覚化は何ですか？

コードの欠陥を、近接性などのコードの複雑さの指標と関連付けたいのですが。一般的なモデルの1つは、これをポアソンプロセスと見なすことです。ここで、継続時間はコーディングに費やされた時間であり、密度はコードの複雑さの関数です。回帰を行って有意値などを取得できます。ただし、結果を視覚化することは困難です（数学にあまり興味がない同僚にとってはさらに困難です）。これが線形傾向である場合など、異常値などを確認するためにこれを表示する良い方法はありますか？（Rパッケージへのリンクは大歓迎です。）たとえば、単にプロットすることもできますDefects / Time ~ Complexityが、これはかなりノイズDefectsが多く、離散化されているため非常に小さいため、傾向を確認することは困難です。私が考えていたのは、データを分位点にスライスしてから、分位点ごとに回帰を行い、結果の密度をプロットできることです。ただし、これがどれほど有効であるかはわかりません。分位とは何かについて人々を誤解させる。

11 regression data-visualization poisson-distribution

タグ付けされた質問 「poisson-distribution」

タグ付けされた質問「poisson-distribution」