タグ付けされた質問 「poisson-distribution」

平均が分散と等しいという特性を持つ、非負の整数で定義された離散分布。

2
離散分布を適合させてデータをカウントする方法は?
次のカウントデータのヒストグラムがあります。そして、離散分布をそれに当てはめたいと思います。これについてどうすればいいかわかりません。 最初に離散分布、たとえば負の二項分布をヒストグラムに重ね合わせて、離散分布のパラメーターを取得し、Kolmogorov–Smirnov検定を実行してp値を確認する必要がありますか? この方法が正しいかどうかはわかりません。 このような問題に取り組む一般的な方法はありますか? これは、カウントデータの度数分布表です。私の問題では、ゼロ以外のカウントのみに焦点を合わせています。 Counts: 1 2 3 4 5 6 7 9 10 Frequency: 3875 2454 921 192 37 11 1 1 2 更新:質問したい:Rのfitdistr関数を使用して、データを近似するためのパラメーターを取得しました。 fitdistr(abc[abc != 0], "Poisson") lambda 1.68147852 (0.01497921) 次に、ヒストグラムの上にポアソン分布の確率質量関数をプロットします。 ただし、ポアソン分布はカウントデータのモデル化に失敗したようです。何か私にできることはありますか?

5
大きなデータでのポアソン回帰:測定単位を変更するのは間違っていますか?
ポアソン分布の階乗のため、観測値が大きい場合、ポアソンモデルを推定することは(たとえば、最尤法を使用して)非実用的になります。たとえば、特定の年の自殺者数を説明するモデルを推定しようとしている場合(年間データのみが利用可能です)、たとえば、毎年何千人も自殺しているとすると、自殺者を数百人で表現するのは間違っていますか? 、したがって2998は29.98〜= 30になりますか?つまり、データを管理しやすくするために測定単位を変更するのは間違っていますか?

3
しないのはなぜためのCLTワーク
我々は、の合計ことを知っているのでパラメータを持つポアソン、それ自体とポアソンである 。したがって、仮説として、を実際にはと言うことができます。ここで、各は次のとおりです、およびCLTを機能させるには大きなnを使用します。nnnλλ\lambdanλnλn\lambdax∼poisson(λ=1)x∼poisson(λ=1)x \sim poisson(\lambda = 1) ∑n1xi∼poisson(λ=1)∑1nxi∼poisson(λ=1)\sum_1^n x_i \sim poisson(\lambda = 1) xixix_ixi∼poisson(λ=1/n)xi∼poisson(λ=1/n)x_i \sim poisson(\lambda = 1/n) これは(明らかに)機能しません。これは、CLTが正常に「近い」ランダム変数に対して「高速」に動作する方法と関係があり、ラムダが小さいほど、ほとんどが0であり、まれにしか変化しないランダム変数を取得することと関係があると思います。 しかし、私が説明したのは私の直感です。これがなぜそうなのかを説明するより正式な方法はありますか? ありがとう!

4
DNA配列決定のための負の二項分布のフレーミング
負の二項分布は、バイオインフォマティクスのカウントデータ(具体的には、特定の実験からのゲノムの特定の領域内で予想されるシーケンスリードの数)の一般的なモデルになりました。説明は異なります: ポアソン分布のように機能するものの、追加のパラメーターがあり、必ずしも平均と等しくない分散で、真の分布をより自由にモデル化できるものとして説明する人もいます ポアソン分布の重み付き混合として説明する人もいます(ポアソンパラメーターにガンマ混合分布がある) 特定の数の失敗を見る前にベルヌーイ試行の成功の数をモデル化するような負の二項分布の伝統的な定義でこれらの理論を二乗する方法はありますか?それとも、ポアソン分布とガンマ混合分布の重み付き混合が負の二項分布と同じ確率質量関数を持っているという幸福な偶然と考えるべきでしょうか?

3
ポアソンは指数関数的であり、ガンマポアソンは何に対してですか?
ポアソン分布は単位時間あたりのイベントを測定でき、パラメーターはです。指数分布は、パラメーター使用して、次のイベントまでの時間を測定します。イベントまたは時間をモデル化する方が簡単かどうかに応じて、ある分布を別の分布に変換できます。λλ\lambda1λ1λ\frac{1}{\lambda} 現在、ガンマポアソンは、より大きな分散を持つ「ストレッチ」ポアソンです。ワイブル分布は、より大きな分散を持つ「ストレッチされた」指数関数です。しかし、これら2つはポアソンを指数関数に変換できるのと同じように、簡単に相互変換できますか? それとも、ガンマポアソン分布と組み合わせて使用​​するのに適した他の分布がありますか? ガンマポアソンは、負の二項分布、またはNBDとも呼ばれます。

4
カウントデータの適切なモデルを決定するための戦略
カウントデータで使用するモデルを決定するための適切な戦略は何ですか?マルチレベルモデルとしてモデル化する必要があるデータを数えていますが、これを行うための最良の方法はバグまたはMCMCglmmを使用することを(このサイトで)推奨されました。しかし、私はまだベイジアン統計について学ぼうとしています。最初にデータを一般化線形モデルとして適合させ、データのネスト構造を無視することを試みるべきだと思いました(期待することについて漠然としたアイデアを得ることができるように)。 データの約70%は0であり、平均に対する分散の比率は33です。そのため、データは非常に分散しています。 いくつかの異なるオプション(ポアソン、負の二項、クアッシ、ゼロ膨張モデルを含む)を試した後、結果に一貫性がほとんど見られません(すべてから変化することは重要であり、何も意味がない)。 インフレと過剰分散に基づいて、どのタイプのモデルを選択するかについて、情報に基づいた決定を下すにはどうすればよいですか?たとえば、どのようにクアッシポアソンが負の二項(またはその逆)よりも適切であると推測できますか?また、どちらを使用しても超過ゼロが適切に処理された(または処理されなかった)ことをどのように確認できますか?同様に、ゼロ膨張モデルが使用された場合、これ以上の過分散がないことをどのように評価しますか?または、ゼロ膨張ポアソンとゼロ膨張負の二項式の間でどのように決定する必要がありますか?

2
誰かがポアソンモデルに対して残差/ dfを1にすべきだと言ったとき、近似はどの程度ですか?
残留偏差を自由度で除算することで、ポアソンモデルの近似が過剰分散しているかどうかを確認するためのアドバイスを見てきました。結果の比率は「約1」になります。 問題は、「おおよそ」の範囲について話していることです。代替モデルの形態を検討するためにアラームを発動させるべき比率は何ですか?

4
飛行機事故のクラスターはどのくらい奇妙ですか?
元の質問(7/25/14):ニュースメディアからのこの引用は意味がありますか、それとも最近の飛行機事故の相次ぐ統計を見るためのより良い統計的方法がありますか? ただし、Barnettはポアソン分布の理論にも注意を向けています。これは、衝突間の短い間隔が実際には長い衝突よりも可能性が高いことを意味します。 「1年に平均1つの致命的な事故があると仮定します。これは、特定の日にクラッシュする可能性が365に1つであることを意味します」とバーネットは言います。「8月1日にクラッシュが発生した場合、次のクラッシュが8月2日に1日発生する可能性は1/365です。しかし、次のクラッシュが8月3日に発生する可能性は(364/365)x(1/365)です、次のクラッシュは8月3日に発生するのは、8月2日にクラッシュが発生しない場合のみです。」 「直観に反するように思えますが、結論は確率の法則から容赦なく続きます」とバーネットは言います。 出典:http : //www.bbc.com/news/magazine-28481060 明確化(14/27/14):(私にとって)直観に反することは、まれなイベントは近いうちに発生する傾向があるということです。直観的には、まれな出来事はすぐには起こらないと思います。誰かがポアソン分布の仮定の下でのイベント間の時間の理論的または経験的な予想される分布を指摘できますか?(つまり、y軸は頻度または確率であり、x軸は日、週、月、または年などにグループ化された2つの連続した発生間の時間であるヒストグラムです。)ありがとう。 明確化(14年7月28日):見出しは、間隔が広い事故よりも事故のクラスターがある可能性が高いことを示しています。それを運用可能にします。クラスターが3回の飛行機事故であり、短い期間が3か月、長い期間が3年であるとします。3年の期間内よりも3か月の期間内に3つの事故が発生する可能性が高いと考えるのは非論理的なようです。仮に最初の事故を想定したとしても、今後3年以内に比べて今後3か月以内にさらに2つの事故が発生すると考えるのは非論理的です。それが本当なら、ニュースメディアの見出しは誤解を招き、間違っています。何か不足していますか?

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
Rを使用してポアソン過程を推定する方法は?(または:NHPoissonパッケージの使用方法?)
イベントのデータベース(日付の変数)と関連する共変量があります。 イベントは、パラメータがいくつかの共変量の未知の(ただし線形の可能性がある)関数である非定常ポアソンプロセスによって生成されます。 NHPoissonパッケージはこの目的のためだけに存在すると思います。しかし、15時間の失敗した研究の後、私はまだそれを使用する方法を知ることに近づいていません。 ヘック、私は両方の参考書を読んでみました:Coles、S.(2001)。極値の統計モデリングの紹介。スプリンガー。Casella、G. and Berger、RL、(2002)。統計的推論。ブルックス/コール。 fitPP.funのドキュメントにある1つの例は、私の設定に合わないようです。私には極端な価値はありません!むき出しのイベントがあります。 誰もが、パラメータを持つポアソン過程フィッティングの簡単な例で助けを私にしてくださいすることができ単一の共変量を持つX、および仮定を、そのλ = λ 0 + α ⋅ X?私はの推定に興味λ 0とα。イベントの時間(たとえば、任意の時間t 0の後の秒単位で測定)を含む2列のデータセットと、共変量Xの値を含む別の列を提供します。λλ\lambdaXXXλ=λ0+α⋅Xλ=λ0+α⋅X\lambda = \lambda_0 + \alpha \cdot Xλ0λ0\lambda_0αα\alphat0t0t_0XXX

11
ポアソンではないプロセスの例?
ポアソン分布を学生に説明するのに役立つように、ポアソン分布でモデル化するのに適さない状況の良い例を探しています。 ポアソン分布によってモデル化できる例として、ある時間間隔で店舗に到着する顧客の数を一般的に使用します。私は、同様の脈絡の反例を探しています。つまり、連続時間での正のカウントプロセスと見なすことができ、明らかにポアソンではない状況を探しています。 状況は、学生が把握して覚えやすくするために、理想的にはできるだけシンプルでわかりやすいものにする必要があります。

2
なぜキューイング理論問題の到着プロセスをモデル化するためにポアソン分布が選択されるのですか?
個人がサービングノードに到着してキューイングするキューイング理論のシナリオを検討する場合、通常、ポアソンプロセスを使用して到着時間をモデル化します。これらのシナリオは、ネットワークルーティングの問題で発生します。ポアソンプロセスが到着をモデル化するのに最適な理由について、直感的な説明をいただければ幸いです。

2
過分散を伴うポアソン分布のモデリング
ポアソン分布に従うと思われるデータセットがありますが、それは約3倍過剰に分散しています。現時点では、Rの次のコードのようなものを使用して、この過分散をモデリングしています。 ## assuming a median value of 1500 med = 1500 rawdist = rpois(1000000,med) oDdist = rawDist + ((rawDist-med)*3) 視覚的には、これは私の経験データに非常によく当てはまるようです。フィットに満足している場合、ここで説明するように、負の二項分布を使用するなど、もっと複雑なことをする必要がある理由はありますか?(もしそうなら、そうすることへのポインターかリンクは大いに感謝されるでしょう)。 ああ、私はこれがわずかにギザギザの分布を作成することを知っています(3の乗算のため)が、それは私のアプリケーションにとっては問題ではありません。 更新: この質問を検索して見つける他の人のために、負の二項分布を使用して過分散ポアソンをモデル化する単純なR関数を次に示します。dを目的の平均/分散比に設定します。 rpois.od<-function (n, lambda,d=1) { if (d==1) rpois(n, lambda) else rnbinom(n, size=(lambda/(d-1)), mu=lambda) } (Rメーリングリスト経由:https : //stat.ethz.ch/pipermail/r-help/2002-June/022425.html)

7
ポアソン分布が二項分布の限定的なケースである理由を直感的に理解する
DS Siviaによる「データ分析」では、二項分布からポアソン分布の導出があります。 彼らは、ポアソン分布はときの二項分布の限定的なケースであると主張しています。M→∞M→∞M\rightarrow\inftyここで、MMMは試行回数です。 質問1:その議論はどのように直感的に理解できますか? 質問2:なぜ大であるMMMの上限M NにM!N!(M−N)!M!N!(M−N)!\frac{M!}{N!(M-N)!}等しいMNN!MNN!\frac{M^{N}}{N!}、NNNはMMM回の試行の成功数ですか?(このステップは派生で使用されます。)

2
正規分布の特定の値の確率がゼロになるのはなぜですか?
正規分布では、確率はゼロに等しく、ポアソン分布では、cが非負の整数の場合、ゼロに等しくないことに気付きました。P(x=c)P(x=c)P(x=c)ccc 私の質問は次のとおりです。正規分布の定数の確率は、曲線の下の面積を表すためゼロに等しいのでしょうか?それとも、記憶するのは単なるルールですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.