タグ付けされた質問 「poisson-distribution」

平均が分散と等しいという特性を持つ、非負の整数で定義された離散分布。

3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

4
ポアソンと指数分布の関係
ポアソン分布の待機時間は、パラメーターlambdaの指数分布です。しかし、私はそれを理解していません。ポアソンは、たとえば単位時間あたりの到着数をモデル化します。これは指数分布とどのように関係していますか?時間単位でのk個の到着の確率はP(k)(ポアソンでモデル化)、k + 1の確率はP(k + 1)であるとしましょう。指数分布はそれらの間の待ち時間をどのようにモデル化しますか?

1
ポアソン回帰で係数を解釈する方法は?
ポアソン回帰の主な効果(ダミーコード化された因子の係数)をどのように解釈できますか? 次の例を想定します。 treatment <- factor(rep(c(1, 2), c(43, 41)), levels = c(1, 2), labels = c("placebo", "treated")) improved <- factor(rep(c(1, 2, 3, 1, 2, 3), c(29, 7, 7, 13, 7, 21)), levels = c(1, 2, 3), labels = c("none", "some", "marked")) numberofdrugs <- rpois(84, 10) + 1 healthvalue <- rpois(84, 5) …

1
平方根変換がカウントデータに推奨されるのはなぜですか?
カウントデータがある場合は、平方根を取ることをお勧めします。(CVのいくつかの例については、ここで@HarveyMotulskyの答え、またはここで@whuberの答えを参照してください。)一方、ポアソンとして分布した応答変数を使用して一般化線形モデルを近似する場合、ログは正規リンクです。これは、応答データのログ変換を行うようなものです(より正確には、応答分布を制御するパラメーターログ変換を行うことです)。したがって、これら2つの間には緊張があります。 λλ\lambda この(明らかな)矛盾をどのように調整しますか? 平方根が対数よりも優れているのはなぜですか?

2
バイナリ結果の相対リスクを推定するポアソン回帰
簡単な要約 ポアソン回帰(相対リスク)に対して、ロジスティック回帰(オッズ比)がバイナリ結果のコホート研究で使用されるのはなぜ一般的ですか? バックグラウンド 私の経験では、学部生および大学院生の統計学および疫学コースは、一般に、リスク推定値をオッズ比として報告するバイナリ結果のデータのモデリングにロジスティック回帰を使用する必要があることを教えています。 ただし、ポアソン回帰(および関連:準ポアソン、負の二項分布など)を使用して、バイナリ結果のデータをモデル化することもでき、適切な方法(堅牢なサンドイッチ分散推定量など)を使用して、有効なリスク推定値と信頼レベルを提供します。例えば、 Greenland S.、一般的な結果の研究および症例対照研究における相対リスクおよび他の疫学的測定のモデルベースの推定、Am J Epidemiol。2004 8月15日; 160(4):301-5。 Zou G.、バイナリデータを使用した前向き研究への修正ポアソン回帰アプローチ、Am J Epidemiol。2004 4月1日; 159(7):702-6。 Zou GYおよびDonner A.、相関バイナリデータを使用したプロスペクティブ研究への修正ポアソン回帰モデルの拡張、Stat Methods Med Res。2011 11月8日。 ポアソン回帰から、相対リスクを報告することができます。これは、特に頻繁な結果、特に統計に強いバックグラウンドを持たない個人にとって、オッズ比と比較して解釈しやすいと主張する人もいます。Zhang J.とYu KF、相対的なリスクは?一般的な結果のコホート研究におけるオッズ比を修正する方法、JAMA。1998年11月18日; 280(19):1690-1。 医学文献を読むと、二値アウトカムのコホート研究の中で、ポアソン回帰の相対リスクよりもロジスティック回帰のオッズ比を報告するのがはるかに一般的であると思われます。 ご質問 バイナリ結果のコホート研究の場合: ポアソン回帰の相対リスクではなく、ロジスティック回帰のオッズ比を報告する正当な理由はありますか? そうでない場合、医学文献の相対リスクを伴うポアソン回帰の頻度は、主に科学者、臨床医、統計学者、および疫学者の間の方法論と実践の間の遅れに起因する可能性がありますか? 中間統計と疫学のコースには、バイナリ結果のポアソン回帰の詳細な議論を含めるべきですか? 学生や同僚に、適切な場合にロジスティック回帰よりもポアソン回帰を考慮するように勧めるべきですか?

8
与えられたサンプルがポアソン分布から取得された場合、どのようにテストできますか?
正規性テストは知っていますが、「ポアソン性」をテストするにはどうすればよいですか? 〜1000個の非負整数のサンプルがありますが、これらはポアソン分布から取得されたものと思われ、それをテストしたいと思います。

3
ロジスティック回帰の95%信頼区間を手動で計算することと、Rでconfint()関数を使用することに違いがあるのはなぜですか?
皆さん、私は説明できない奇妙なことに気づきました、できますか?要約すると、ロジスティック回帰モデルで信頼区間を計算する手動のアプローチとR関数confint()は異なる結果をもたらします。 Hosmer&LemeshowのApplied Logistic Regression(第2版)を行ってきました。第3章には、オッズ比と95%の信頼区間を計算する例があります。Rを使用すると、モデルを簡単に再現できます。 Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

2
ポアソン分散データのボックスプロットバリアントはありますか?
ポアソン分布データ(またはおそらく他の分布)に適応したボックスプロットバリアントがあるかどうかを知りたいですか? ガウス分布では、ウィスカはL = Q1-1.5 IQRおよびU = Q3 + 1.5 IQRに配置されているため、箱ひげ図には、高い外れ値(Uより上の点)とほぼ同じくらい多くの低い外れ値(Lより下の点)があります)。 ただし、データがポアソン分布の場合、正の歪度によりPr(X <L)<Pr(X> U)が得られるため、これはもはや成り立ちません。ポアソン分布に「適合する」ようにひげを配置する別の方法はありますか?

4
過剰分散ポアソン結果のマルチレベルモデルをどのように適合させるのですか?
Rを使用して、多レベルGLMMをポアソン分布(過剰分散)に適合させたいと思っています。現時点では、lme4を使用していますが、最近quasipoissonファミリーが削除されたことに気付きました。 他の場所で、観測ごとに1レベルのランダム切片を追加することで、二項分布の加法的な過分散をモデル化できることを見てきました。これはポアソン分布にも当てはまりますか? それを行うより良い方法はありますか?推奨する他のパッケージはありますか?


1
二項分布関数が制限ポアソン分布関数より上/下にあるのはいつですか?
ましょパラメータを持つ二項分布関数(DF)を示しとで評価: \ begin {equation} B(n、p、r)= \ sum_ {i = 0} ^ r \ binom {n} {i} p ^ i(1-p)^ {ni}、\ end {equation } およびF(\ nu、r)が、パラメーター\ a \ in \ mathbb R ^ +で評価されたポアソンDFを表し、r \ in \ {0,1,2、\ ldots \}で評価されます: \ begin {equation} F(a 、r)= e ^ {-a} \ sum_ {i …

4
2つのポアソンサンプルの平均値が同じかどうかの確認
これは基本的な質問ですが、答えを見つけることができませんでした。私は2つの測定値を持っています。時間t1のn1イベントと時間t2のn2イベントの両方が、おそらく異なるラムダ値を持つポアソンプロセスによって生成されます。 これは実際にはニュース記事からのものであり、本質的には、あるため、この2つは異なると主張していますが、主張が有効かどうかはわかりません。(一方または他方のイベントを最大化するために)期間が悪意を持って選択されなかったとします。n1/t1≠n2/t2n1/t1≠n2/t2n_1/t_1\neq n_2/t_2 tテストを行うことはできますか、それとも適切ではありませんか?イベントの数が少なすぎるため、分布をほぼ正常に快適に呼び出すことができません。


5
機械学習で階層/ネストされたデータを処理する方法
例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

3
ポアソン分布は正規分布とどのように異なりますか?
次のように、ポアソン分布を持つベクトルを生成しました。 x = rpois(1000,10) を使用してヒストグラムを作成するhist(x)と、分布はおなじみのベル型の正規分布のように見えます。ただし、Kolmogorov-Smirnoffのテストでks.test(x, 'pnorm',10,3)は、p値が非常に小さいため、分布は正規分布とは大きく異なります。 だから私の質問は次のとおりです。ヒストグラムが正規分布に非常に似ている場合、ポアソン分布は正規分布とどのように異なりますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.