タグ付けされた質問 「poisson-distribution」

平均が分散と等しいという特性を持つ、非負の整数で定義された離散分布。

3
発生率の比較
2つのグループ(1つは疾患なし、もう1つは疾患なし)間の発生率と比較したいと思います。 発生率比(IRR)、つまり発生率グループB /発生率グループAを計算し、この率が1に等しいかどうかをテストし、最後にIRRの95%CI間隔を計算することを計画していました。 私は本(Rosner's Fundamentals of Biostatistics)で95%CIを計算する方法を見つけました。 exp[log(IRR)±1.96(1/a1)+(1/a2)−−−−−−−−−−−−√]exp⁡[log⁡(IRR)±1.96(1/a1)+(1/a2)]\exp\left[\log(\text{IRR}) \pm 1.96\sqrt{(1/a_1)+(1/a_2)}\right] ここで、とはイベントの数です。しかし、この近似は十分に大きいサンプルサイズに対してのみ有効であり、私が持っているイベントの数は小さいと思います(たぶん、全体の比較では問題ありません)。a 2a1a1a_1a2a2a_2 だから私は別の方法を使うべきだと思います。 私はRとexactciパッケージを使用していて、おそらく使用できることを発見しましたpoisson.test()。ただし、この関数には、両側のp値を定義するための3つの方法があります。中央、最小、およびブレーカーです。 だから私の質問は: ポアソン率の比較テストを使用して2つの発生率比を比較することは正しいですか? exactciパッケージのRでpoisson.test関数を使用する場合、どの方法が最適ですか? ビネットのためexactciは言います: central:は、上記の1で区切られた片側p値の最小値の2倍です。「central」という名前は、中心間隔である関連付けられた反転収束間隔によって動機付けられます。つまり、真のパラメーターがは、100(1-)%の信頼区間の下(上)テールよりも小さい(大きい)確率です。これは、Hirji(2006)によってTST(2回の小さいテール法)と呼ばれています。αα/2α/2\alpha/2αα\alpha minlike:観測された尤度以下の尤度を持つ結果の確率の合計です。これはHirji(2006)によってPB(確率ベース)メソッドと呼ばれています。 ブレーカー:観測されたテールの小さい確率と、観測されたテールの確率を超えない反対側のテールの最小確率を組み合わせます。「ブレーカー」という名前は、コンデンス間隔の関連メソッドを包括的に研究するブレーカー(2000)が動機となっています。これはHirji(2006)によってCT(combined tail)法と呼ばれています。 私のデータは: Group A: Age group 1: 3 cases in 10459 person yrs. Incidence rate: 0.29 Age group 2: 7 cases in 2279 person yrs. Incidence rate: 3.07 Age …

1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
ランダムな勾配と切片を使用したポアソンGLM混合モデルの近似
現在、一連のポアソン時系列モデルに取り組んでいます。カウントの取得方法の変更(ある診断テストから別のテストへの切り替え)の影響を推定しなが​​ら、他の傾向を経時的に制御しています(たとえば、病気の発生率)。さまざまなサイトのデータがあります。 私もGAMをいじくり回してきましたが、一連のかなり基本的なGLMに時間の傾向を合わせて、結果をプールしました。このためのコードは、SASでは次のようになります。 PROC GENMOD data=work.data descending; model counts = dependent_variable time time*time / link=log dist = poisson; run; またはこれはRで: glm(counts ~ dependent_variable + time + time*time, family="poisson") 次に、それらの見積もりを取得し、さまざまなサイトにプールします。また、プールするのではなく、ランダムな傾斜と各サイトのインターセプトを含むポアソン混合モデルを使用することをお勧めします。したがって、基本的に、dependent_variableの固定効果があり、次に切片と時間(または理想的には時間と時間^ 2のランダム効果)があります。 私の問題は、これらのモデルの1つをどのように合わせるかわからないことです。混合モデルでは、みんなのドキュメントが突然非常に不透明になるようです。誰もが私が適合しようとしているものを適合させる方法、および何を注意すべきかについて簡単な説明(またはコード)を持っていますか?

1
ポアソン/対数線形モデルの尤度比検定のためにゼロカウントを調整する必要がありますか?
分割表に0がありglm、尤度比検定用にネストされたポアソン/対数線形モデル(R 関数を使用)を近似している場合、glmモデルを近似する前にデータを調整する必要があります(たとえば、すべてに1/2を追加します)カウント)?明らかに、いくつかのパラメータは調整なしでは推定できませんが、調整/調整の欠如はLRテストにどのように影響しますか?

2
データのROC曲線を計算する
そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線(FPR対TPR OR FAR対FRR)を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

1
ポイントプロセスの混合と分割
左側の次の図では、密度(強度)が異なるポイントプロセスの2つの実現 λ1λ1\lambda_1そしては、所属する領域の中心に一致するように混合され、強度中央にポイントプロセスを構築します。次に、ランダムに選択されたポイントは、右側に示されているように、そこから抽出された2つのセットです。 質問: です?そして、ですか? 左側の2つがポアソンPPである場合、中央の1つはポアソンPPですか? 右側の2つはどうですか?λ2λ2\lambda_2λλ\lambdaλ=λ1+λ2λ=λ1+λ2\lambda=\lambda_1+\lambda_2λ=λ3+λ4λ=λ3+λ4\lambda=\lambda_3+\lambda_4

1
ポアソン/負の二項式の後の置換ありまたはなしのサンプリングを分析的に解く
短縮版 独立したポアソンドローと、置換の有無にかかわらずさらにサンプリングすることで得られる複合的な可能性を分析的に解決または近似しようとしています(実際にはどちらでもかまいません)。MCMC(Stan)で尤度を使用したいので、定数項までの解だけが必要です。最終的に、私は最初のドローがネガからであるプロセスをモデル化したいと思います。二項分布ですが、ポアソンのケースの解決策でそこに到達できると思います。 解決策が実行不可能である可能性は十分にあります(これが単純な問題か非常に難しい問題かを判断できるほど数学を理解していません)。したがって、問題がおそらく扱いにくい理由(たとえば、既知の困難な問題と比較する)の近似、否定的な結果、または直感にも興味があります。私が前進するのに役立つ有用なペーパー/定理/トリックへのリンクは、目前の問題へのそれらの関係が完全にうまくいかなくても、良い答えです。 公式声明 より正式には、まずY=(y1,...,yN),yn∼Pois(λn)Y=(y1,...,yN),yn∼Pois(λn)Y = (y_1, ..., y_N), y_n \sim Pois(\lambda_n)独立して引き出され、次いでIサンプルの全てからランダムにアイテム得るために。つまり、壷から色のボールを描画します。ここで、色のボールの量はから描画されます。ここで、は既知で固定されていると仮定し、Y Z = (Z 1、。。。、Z N)K N P 、O 、I S (λ N)K Σ N Y N ≥ KkkkYYYZ=(z1,...,zN)Z=(z1,...,zN)Z = (z_1,...,z_N)kkknnnPois(λn)Pois(λn)Pois(\lambda_n)kkk∑nyn≥k∑nyn≥k\sum_n y_n \geq k。技術的にサンプリングは置換なしで行われますが、置換ありのサンプリングを想定することは大したことではありません。 置換なしのサンプリングを解決するために2つの方法を試しましたが(一部の用語がキャンセルされたため、これはより簡単なケースのように思われました)、両方に行き詰まりました。交換せずにサンプリングする場合の可能性は次のとおりです。 P(Z=(z1,...,zN)|Λ=(λ1,...,λN))=∑Y;∀n:yn≥zn(∏Nn=1(ynzn)(∑Nn=1ynk)∏Nn=1Poisson(yn|λn))P(∑nyn≥k|Λ)P(Z=(z1,...,zN)|Λ=(λ1,...,λN))=∑Y;∀n:yn≥zn(∏n=1N(ynzn)(∑n=1Nynk)∏n=1NPoisson(yn|λn))P(∑nyn≥k|Λ) P(Z = (z_1, ..., z_N) | \Lambda = (\lambda_1, ..., \lambda_N)) = \frac{ …

1
指数の積の線形結合の合計は指数です
この問題は私の研究で発生しましたが平均 iid指数分布(ED)であり、が負でない数であると仮定し。それが真実であること これは、両側の期待値がに等しいため、健全性チェックに合格します。とすると、左側は指数関数的なになります。それ以外は、EDの製品の処理方法がわからないため、この問題への対処方法がわかりません。1 λ ∞ Σ K = 0Vi∼EDVi∼EDV_i \sim \text{ED}111λλ\lambda1λ=0V0∑k=0∞λke−λV0⋯Vkk!∼ED?∑k=0∞λke−λV0⋯Vkk!∼ED? \sum_{k=0}^{\infty} \frac{\lambda^k e^{-\lambda}V_{0} \cdots V_k}{k!} \sim \text{ED}? 111λ=0λ=0\lambda = 0V0V0V_0

1
ポアソンGLMMの異分散性の解決
長期的な収集データがあり、収集した動物の数が天候の影響によって影響を受けるかどうかをテストしたいと思います。私のモデルは以下のようになります: glmer(SumOfCatch ~ I(pc.act.1^2) +I(pc.act.2^2) + I(pc.may.1^2) + I(pc.may.2^2) + SampSize + as.factor(samp.prog) + (1|year/month), control=glmerControl(optimizer="bobyqa", optCtrl=list(maxfun=1e9,npt=5)), family="poisson", data=a2) 使用される変数の説明: SumOfCatch:収集された動物の数 pc.act.1、pc.act.2:サンプリング中の気象条件を表す主成分の軸 pc.may.1、pc.may.2:5月の気象条件を表すPCの軸 SampSize:落とし穴トラップの数、または標準の長さのトランセクトの収集 samp.prog:サンプリングの方法 年:サンプリングの年(1993年から2002年まで) 月:サンプリングの月(8月から11月まで) フィットされたモデルの残差は、フィットされた値に対してプロットすると、かなりの不均一性(異分散性?)を示します(図1を参照)。 私の主な質問は、これは私のモデルの信頼性を疑わしいものにする問題ですか?もしそうなら、それを解決するために私は何ができますか? これまでのところ、私は以下を試しました: 観測レベルの変量効果を定義することによって過剰分散を制御します。つまり、観測ごとに一意のIDを使用し、このID変数を変量効果として適用します。私のデータはかなりの過剰分散を示していますが、残差がさらに醜くなったため、これは役に立ちませんでした(図2を参照) ランダムエフェクトのないモデルを、準ポアソンglmとglm.nbでフィッティングしました。元のモデルと同様の残差プロットと近似プロットも生成しました 私の知る限り、異分散性一貫性のある標準誤差を推定する方法はあるかもしれませんが、Rのポアソン(または他の種類の)GLMMに対してそのような方法を見つけることはできませんでした。 @FlorianHartigへの応答:データセット内の観測値の数はN = 554であり、これはかなりの観測値だと思います。そのようなモデルの数ですが、もちろん、より多くの陽気です。2つの図を投稿します。最初の図は、DHARMaでスケーリングされたメインモデルの残差プロット(Florianが推奨)です。 2番目の図は2番目のモデルからのもので、唯一の違いは観測レベルの変量効果が含まれていることです(最初のモデルには含まれていません)。 更新 気象変数(予測子、つまりx軸)とサンプリングの成功(応答)の関係の図: アップデートII。 予測値と残差を示す図:

2
Rのポアソンデータの対数対平方根リンク
現在、RのGLMを使用して、エイズによる死亡のモデル化に取り組んでいます。ポアソンデータのリンク関数には、対数と平方根の2つのオプションがあることを知っています。 平方根はばらつきの問題を解決するのに対し、対数は曲線をまっすぐにする必要があることを知っています。しかし、どのリンクがデータに適しているかを実際にテストするにはどうすればよいですか?

1
ポアソンGLM(対数リンク関数)の説明された分散の測定
(ログリンク関数を使用して)ポアソンGLMの「説明された分散」の適切な尺度を探しています。 私はいくつかの異なるリソース(このサイトと他の場所の両方で)を見つけましたが、いくつかの異なる擬似対策について説明していますが、ほぼすべてのサイトで、ロジットリンク関数に関連する対策について言及していますが、疑似測度が、私のポワシオン分布GLMの対数リンクなどの他のリンク関数に適しているかどうかを話し合います。R2R2R^2R2R2R^2 たとえば、ここに私が見つけたいくつかのサイトがあります: ロジスティック回帰(Cox&SnellまたはNagelkerke)について報告するのは、どの擬似メジャーですか?R2R2R^2 http://thestatsgeek.com/2014/02/08/r-squared-in-logistic-regression/ http://www.ats.ucla.edu/stat/mult_pkg/faq/general/Psuedo_RSquareds.htm 私の質問は次のとおりです。これらのリンクで説明されている方法(特にUCLAページのFAQ)は、Poission GLM(ログリンク機能を使用)に適していますか?他のどの方法よりも特定の方法が適切であるか、標準的に使用されていますか? 背景: これは、Poission GLMを使用して神経データを分析している研究論文用です。モデルの偏差(Poission分布を想定して計算)を使用して2つのモデルを比較しています。1つのモデル(A)には、他のモデル(B)から除外された5つのパラメーターが含まれています。私の興味(および論文の焦点)は、5つのパラメーターが統計的にモデルの適合を改善することを示すことです。ただし、レビュー担当者の1人は、両方のモデルがデータにどの程度適合しているかを示したいと考えています。 データの適合にOLSを使用していた場合、レビュー担当者は、5つのパラメーターがあるモデルと5つのパラメーターがないモデルの両方の値を効果的に求め、どちらのモデルが分散をどの程度適切に説明しているかを示します。私には合理的な要求のようです。仮に、モデルBのが0.05でモデルAのが0.25であるとします。これは統計的に有意な改善であるとしても、どちらのモデルもデータをうまく説明できません。または、モデルBのが0.5でモデルAのが0.7の場合、非常に異なる方法で解釈される可能性があります。私のGLMと同様の方法で適用できる最も適切な指標を探しています。R2R2R^2R2R2R^2R2R2R^2R2R2R^2R2R2R^2

1
効率よく測定されたポアソンプロセスで、測定されたカウントはまだポアソンですか?
状況: たとえば、放射性崩壊のようなポアソンプロセスがあり、毎秒R粒子を生成するとします。検出器で測定します。粒子が検出器によって検出される確率Pがあります。 私が知っていると思うこと: 粒子放出の到着間時間は、Rに基づくパラメーターで指数的に分布します。 検出前に放出される粒子の数は、Pに基づく負の二項式によって与えられます。 数Nが(2)からサンプリングされる場合、検出された粒子の到着時間の単一サンプルは、(1)からのNサンプルの合計によって与えられます。この合計は、NとRに基づくパラメーターを使用してガンマ分布からサンプリングすることで取得できます。 私の質問: NとRに基づいてガンマからサンプリングすることで単一の到着時間を計算できる場合、間隔内の検出器の数はどのようにして再びポアソンになるのでしょうか?(ポアソンであるためには、検出器の到着時間は指数であり、奇妙なガンマの事柄に従って分布されていない必要があります。)もちろんNは変動しますが、これがどのように機能するかはわかりません。 ただし、検出器の数が実際にポアソン分布であることはほぼ確実です。誰かが数学を教えてくれませんか?助けてくれてありがとう! 編集: 私はこのペーパーを見つけました:Fried、DL「光電子放出電流のノイズ」。応用光学4.1(1965):79-80。 これは、二項で選択されたポアソン確率変数も、PRによって与えられた率でポアソンであるという結果を示しています。これは、jbowmanによるコメントを確認します。それでも、負の二項分布とガンマ分布を使用して検出器で到着間隔を生成するプロセスがどのように正しくないかについての説明を見てみたいと思います。これが私の大きな精神的なしゃっくりです。ありがとうございました。 編集2: 私はこのMATLABスクリプトを記述して、ガンマ分布で試みていたことが機能するかどうかをテストしました。幾何学的に分布したNで生成されたガンマ到着時間はどういうわけか指数関数的であり、Poisson(PR)によって提案された到着時間と一致することがわかります。(ia2とia3は同じように配布されます)。これが分析的にどのように機能するかについての考えはありますか?直感的にはわかりませんでした。 close all n = 100000; ia1 = exprnd(1,n,1); % create exponentially distributed inter-arrival times t1 = cumsum(ia1); % running sum (the real experiment time) mask = (rand(n,1) > 0.5); % flip a coin t2 = t1(mask); …

1
ポアソン平均の信頼区間をその分散に使用できますか
ポアソン分布では、平均は分散と等しくなります。分散の信頼区間を見つけたいのですが。以下の私の推論は正しいですか? 中心極限定理を使用して、平均 95%信頼区間を作成します。 したがって、 は、不等式は数学の他の不等式と同じように機能するはずですが、統計によりカーブボールがスローされることがあるため、確信が持てません。このアプローチが有効かどうかを論じている論文は見つかりません。μμ\mu L≤μ≤UL≤μ≤UL \leq \mu \leq U μ=σ2μ=σ2\mu=\sigma^2 L≤σ2≤UL≤σ2≤UL \leq \sigma^2 \leq U これのもう1つの良い例は、正規分布の平均と中央値の信頼区間です。平均信頼区間は小さくなりますが、中央信頼区間の方がロバストであるため、どちらか一方が他方の推定値として推奨される場合があります。

1
非正規データのマハラノビス距離
マハラノビス距離は、分類の目的で使用される場合、通常、多変量正規分布を想定しており、重心からの距離は分布に従う必要があります(自由度は次元/特徴の数に等しい)。マハラノビス距離を使用して、新しいデータポイントがセットに属する確率を計算できます。χ2χ2\chi^2ddd 多変量正規分布に従わないデータセットがあります()。理論的には、各特徴はポアソン分布に従う必要があり、経験的にこれは多くの()特徴に当てはまるようで、ノイズに含まれていない特徴で、分析から削除できます。このデータの新しいポイントをどのように分類できますか?d≈1000d≈1000d \approx 1000≈200≈200\approx 200 2つのコンポーネントがあると思います。 このデータの適切な「マハラノビス距離」式は何ですか(つまり、多変量ポアソン分布)。他の分布への距離の一般化はありますか? 通常のマハラノビス距離を使用しても、別の定式化を使用しても、これらの距離の分布はどうなりますか?仮説検定を行う別の方法はありますか? あるいは... 各クラスの既知のデータポイントのは、(少なすぎます。経験的に最小値を決定します)から約まで幅広く変化します。マハラノビス距離はでスケーリングされるため、1つのモデル/クラスから次のモデル/クラスまでの距離を直接比較することはできません。データが正常に分布している場合、カイ2乗検定は、さまざまなモデルからの距離を比較する方法を提供します(臨界値または確率を提供することに加えて)。「マハラノビスのような」距離を直接比較する別の方法がある場合、たとえそれが確率を提供していなくても、私はそれで作業することができます。nnnn=1n=1n=1n=6000n=6000n=6000nnn

2
発生率の推定
医学生向けの統計コースを受講しているときに、発生率に関連する問題に遭遇しました。問題の背景は、ポアソン分布に関する章です。この問題では、2300人の喫煙者が1年間にわたってフォローされ、そのうち24人が肺癌を発症しています。次に、プロセスの発生率を計算し、次のように進めます。 発生率= 242300 - 24 / 2Incidence rate=242300−24/2\text{Incidence rate} = \frac{24}{2300-24/2} 彼らは減算なぜ最初は、私は理解していなかった24 / 224/224/2、私はそれらの24人が今年中に癌を発症することから、リスクの自分の時間を開発していないものに比べて短くなっているという事実のためにいくつか修正したと仮定しました病気。少なくとも問題ではなく、教科書自体にそれ以上の情報は与えられていません。簡単な検索で、正しい方向に沿って考えていることが確認されました。 しかし、私はまだ公式の根拠を理解していません。誰かが私を啓発できますか?また、医学生にアクセス可能ないくつかの参照が与えられる可能性がある場合。さらに技術的なリファレンスがあってもかまいません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.