統計とビッグデータ poisson-distribution

4

私たちは、私たちが実際に観察するイベントへのポアソン分布がどれほど適切であるかを常に疑問に思っていました。ほとんどの場合、イベントの発生のモデリングに使用されるのを見てきました。（たとえば、駐車場への車の到着、ネットワーク上のコンピューターホストが送受信したメッセージの数や数など）通常、そのようなイベントはポアソン分布でモデル化します。分布は、物事が実際にどのように発生するかを示す最初の近似にすぎませんか？上記の2つの例で車数/日またはメッセージ/日を観察した場合、および「分布から選択」して出力されたものはどれくらい異なるのですか？ポアソンの近似はどれくらい良いですか？（それは概算ですか？）ポアソンの背後にある「魔法」は何ですか（直感的に言えば:)？

8 poisson-distribution

1

ポアソン分布のロバストな推定

ポアソン分布からのものであると想定される一連の数値があります。セットにはいくつかの外れ値もあり、そのため、最尤推定値は悪影響を受けます。このような状況では、堅牢な推定手順が役立つと聞きました。誰でもこれを行う方法を説明できますか？私は統計学の学生ではありません。 glmrobR の関数がこれに使用できることがわかりました。（私はRにかなり新しいです）。しかし、マニュアルページを読んだにもかかわらず、それをどのように使用するのか理解できませんでした。特にforumula、glmrob関数の最初の引数であるaを取得する方法を理解できません。ありがとう。

8 r estimation poisson-distribution generalized-linear-model robust

1

ガンマ分布からポアソン分布を導き出す方法は？

ましょうT1,T2,…T1,T2,…T_1, T_2, \dotsパラメータの指数確率変数のIIDシーケンスですλλ\lambda。合計は、ガンマ分布です。今私が理解しているように、ポアソン分布はによって次のように定義されています：N tSn=T1+T2+⋯+TnSn=T1+T2+⋯+TnS_n = T_1 + T_2 + \dots + T_nNtNtN_t Nt=max{k:Sk≤t}Nt=max{k:Sk≤t}N_t = \max\{k: S_k \le t\} がポアソン確率変数であることを正式に示すにはどうすればよいですか？NtNtN_t どんな提案も歓迎します。いくつかの証明を試みましたが、最終的な方程式に到達できませんでした。参考文献 http://en.wikipedia.org/wiki/Exponential_distribution http://en.wikipedia.org/wiki/Gamma_distribution http://en.wikipedia.org/wiki/Poisson_distribution

8 distributions probability poisson-distribution exponential gamma-distribution

1

ポアソン回帰の係数の解釈

OLS回帰の係数と比較して、ポアソン回帰の係数を解釈する方法がわかりません。時系列データがあるとします。左側の変数は1年あたりの勝ちゲーム数であり、私の右側の主要変数はNASDAQ値です。モデルをパーセンテージで解釈するのが私の好みの仕様である場合、勝ったゲームの対数変換を行います。また、NASDAQのログを見て、NASDAQが1％増加するとゲームの勝率がどの程度増加するかを説明することもできます。今、私はポアソンモデルが意味をなす可能性があることを認めます。なぜなら、勝ったゲームのデータはカウントされ、連続的ではないからです。私は、多くの制御変数を使用して回帰を実行します。勝ったゲームで対数変換を行わず、代わりにゲームのみを使用しますか？係数を取得したときに、ある種の限界効果計算を実行しますか（プロビットで実行できるように）？これらの係数はどのように解釈すればよいですか？ポアソンの解釈をOLS（対数変換されたOLSまたは変換されていないOLS）と比較するにはどうすればよいですか？私はこの種の質問が以前に尋ねられたことを知っていますが、私はまだそれを完全に理解していません。

8 poisson-distribution

1

アンスコム変換と法線近似

Anscombe変換されa(x)=2x+3/8−−−−−−√a(x)=2x+3/8a(x) = 2\sqrt{x+3/8}。アンスコム変換されたバージョンであることを証明する方法を誰かに教えてもらえますか Y=a(X)Y=a(X)Y = a(X) ポアソン分布確率変数の XXX ほぼ正規分布です（ λ>4λ>4\lambda>4）？

8 distributions normal-distribution poisson-distribution

1

尤度比検定の検出力計算

2つの独立したポアソン確率変数があります。バツ1バツ1X_1 そしてバツ2バツ2X_2、バツ1〜のPOI （λ1）バツ1〜ポワ（λ1）X_1 \sim \text{Pois}(\lambda_1) そしてバツ2〜のPOI （λ2）バツ2〜ポワ（λ2）X_2 \sim \text{Pois}(\lambda_2)。テストしたいH0：λ1=λ2H0：λ1=λ2H_0:\, \lambda_1 = \lambda_2 代替対 H1：λ1≠λ2H1：λ1≠λ2H_1:\, \lambda_1 \neq \lambda_2。私はすでにnullと対立仮説（モデル）の下で最尤推定値を導出し、それらに基づいて尤度比検定（LRT）統計（以下に示すRコード）を計算しました。ここで、以下に基づいてテストの検出力を計算することに興味があります。固定アルファ（タイプ1エラー）= 0.05。さまざまなサンプルサイズ（n）を使用します（n = 5、10、20、50、100など）。の異なる組み合わせ λ1λ1\lambda_1 そして λ2λ2\lambda_2、LRT統計を変更します（LRTstat以下のように計算されます）。ここに私のRコードがあります： X1 = rpois(λ1); X2 = rpois(λ2) Xbar = (X1+X2)/2 LLRNum = dpois(X1, X1) * dpois(X2, X2) LLRDenom …

8 poisson-distribution power likelihood-ratio

5

ラムダ-指数対ポアソン解釈

私は、ポアソン分布と指数分布の両方におけるの役割と、確率を見つけるためにそれがどのように使用されるかを理解しようとしています（そうです、このトピックに関する他の投稿を読んだのですが、私にはまったく役に立ちませんでした）。λλ\lambda 私が理解していること（私は思う）は：ポアソン分布- 個別の λλ\lambda 時間または空間の単位あたりの成功の平均数として定義されます（ただし、「問題のコンテキスト」で「成功」が定義されます） PMF： P(X=k;λ)=λke−λk! P(X=k;λ)=λke−λk!~~P(X = k;\lambda) = \frac{ \lambda^ke^{-\lambda} }{k!} P(X≤k)=P(X=0) + P(X=1) + P(X=2) + … + P(X=k)P(X≤k)=P(X=0) + P(X=1) + P(X=2) + … + P(X=k)P(X\leq k) = P(X = 0)~+~P(X = 1)~+~P(X = 2)~+~\ldots~+~P(X = k) P(X<k)=P(X=0) + P(X=1) + P(X=2) + …

8 self-study poisson-distribution exponential-distribution

1

関連する

イメージセンサーのピクセルでのフォトンの到着はポアソン分布確率変数であり、入力はポアソンrvとしてモデル化できます。X∼Poisson(λ)X∼Poisson(λ)X\sim \mathrm{Poisson}(\lambda) 入力はポアソンであるため、平均と分散は次のように等しくなります。 E[X]Var[X]=1E[X]Var[X]=1\begin{equation} \frac{\mathbb{E}[X]}{\mathrm{Var}[X]}=1 \end{equation} これで、フォトン入力がリニアイメージセンサー（カメラ）を通過してデジタル出力が生成されると、これを線形変換として扱い、出力がます。XXXYYYY=X/gY=X/gY=X/g このリニアセンサの場合には、私は`変換利得を抽出することができ、光子の、すなわち数として表され、一方のデジタル出力を生成するために必要な（光子/デジタル＃）の単位で、としてggg E[Y]Var[Y]=E[X/g]Var[X/g]=1gE[X]1g2Var[X]=gE[Y]Var[Y]=E[X/g]Var[X/g]=1gE[X]1g2Var[X]=g\begin{equation} \frac{\mathbb{E}[Y]}{\mathrm{Var}[Y]}=\frac{\mathbb{E}[X/g]}{\mathrm{Var}[X/g]}=\frac{\frac{1}{g}\mathbb{E}[X]}{\frac{1}{g^2}\mathrm{Var}[X]}=g \end{equation} ただし、変換ゲインが入力に線形に依存するセンサーを考えてみたとえば、でおよびです。これは、ゲインが信号増加関数であることを意味します。Y=X/(aX+b)Y=X/(aX+b)Y=X/(aX+b)a>0a>0a>0b>0b>0b>0g(x)=ax+bg(x)=ax+bg(x)=ax+b この非線形センサーの場合、出力の平均と分散の比からゲインを見つけることはできません。 E[Y]Var[Y]≠g(x)E[Y]Var[Y]≠g(x)\begin{equation} \frac{\mathbb{E}[Y]}{\mathrm{Var}[Y]}\neq g(x) \end{equation} 実際、測定された変換ゲインは、どの入力信号レベルでも実際の変換ゲインよりも大きいことがわかります。 E[Y]Var[Y]>g(x)E[Y]Var[Y]>g(x)\begin{equation} \frac{\mathbb{E}[Y]}{\mathrm{Var}[Y]}> g(x) \end{equation} これについての説明の一部は、ランダム入力増加する凹型変換について、つまりあると述べているジェンセンの不等式です。XXXY=f(X)Y=f(X)Y=f(X) E[Y]=E[f(X)]≤f(E[X])E[Y]=E[f(X)]≤f(E[X])\begin{equation} \mathbb{E}[Y]=\mathbb{E}[f(X)]\leq f(\mathbb{E}[X]) \end{equation} 私の場合、は実際には増加する凹関数であり、出力で測定された平均が入力の変換平均よりも小さいことを意味します。出力で測定されたゲインが過大評価され、測定された平均が過小評価されていることがわかっているため、測定された分散が平均よりもさらに過小評価されていることを意味します。Y=X/(aX+b)Y=X/(aX+b)Y=X/(aX+b) これを証明したり、数学的にこれを書くにはどうすればよいですか？分散に対するジェンセンの不等式の一般化はありますか？この例でゲインが過大評価されている理由を正確に示すことはできますか？

8 variance poisson-distribution probability-inequalities convex

2

k個のゼロの確率は、n個のポアソン確率変数の合計を与えるtですか？

私が持っていると仮定し、パラメータのポアソン分布から確率変数をIID。ことを考えると、正確確率何であるのゼロですか？X1,X2,X3,...XnX1,X2,X3,...XnX_1,X_2,X_3,...X_nλλ\lambdaX1+X2+X3+...+Xn=tX1+X2+X3+...+Xn=tX_1 +X_2+X_3 +...+X_n = tkkkX1,X2,X3,...XnX1,X2,X3,...XnX_1,X_2,X_3,...X_n - 私のアプローチ：あり、がゼロである結合確率質量関数を検討することから始めましたが、続行する方法がわかりませんここから。二項モデルを使用してk個のゼロがある確率を計算する場合、の合計に制約を課す方法がわかりません。X1+X2+X3+...+Xn=tX1+X2+X3+...+Xn=tX_1 +X_2+X_3 +...+X_n = tkkkX1,X2,X3,...XnX1,X2,X3,...XnX_1,X_2,X_3,...X_nXnXnX_n

7 probability poisson-distribution conditional-probability sum

1

カウントデータがポアソン分布に適合しない場合の対処

私は博士の統計学の学生です。カウントデータのデータセットを使用しています。n方向のリアルタイムチャット会話に関与しているユーザーの数です。ユーザー数は1〜6人で、セットには約300個のデータがあります。私の最初の動機は、データがポアソン分布に適合するかどうかを理解することでした。良い適合が見つかった場合、この結果をさらに推論するために使用できると考えていました。長い話を短くするために、データを適合させようとしたところ、0.05の有意水準で適合できませんでした。したがって、私の仮説を拒否できます（ポアソン分布を使用してデータセットを近似できる）。密度プロットを見ると、このように適合度が低いのは、「2人のユーザーに対して記録された値が多すぎるためです。ポアソン分布は、このビンの値が少ないほどよく適合します。しかし、私自身のデータ私は外れ値があると信じる理由はありません（つまり、上位または下位のビンに割り当てられる2人のユーザーとの会話） users <- c(1, 2, 2, 1, 1, 1, 1, 2, 2, 3, 2, 2, 2, 1, 1, 1, 2, 2, 1, 1, 4, 3, 3, 3, 1, 2, 1, 1, 2, 4, 3, 2, 2, 1, 2, 3, 2, 2, 1, 1, 1, 2, 2, 1, …

7 r distributions modeling poisson-distribution

1

ポアソン偏差（xgboost vs gbm vs回帰）

xgboostツール（極端なグラディエントブースティング）を使用したポアソン回帰の逸脱度式はどれか知りたいのですが。ソースコードによると、評価関数は次のとおりです。 struct EvalPoissonNegLogLik : public EvalEWiseBase { const char *Name() const override { return "poisson-nloglik"; } inline bst_float EvalRow(bst_float y, bst_float py) const { const bst_float eps = 1e-16f; if (py < eps) py = eps; return common::LogGamma(y + 1.0f) + py - std::log(py) * y; } } したがって、逸脱度（R）は次のようになります。 …

7 regression poisson-distribution gbm xgboost

2

スポーツでの勝ち負けの結果のモデリング

私はさまざまなチーム、プレーヤーなどに関するデータを持っています。ホームチームの勝利、ホームチームの敗北、または引き分けに終わる可能性がある試合の結果をモデル化する最良の方法を見つけようとしています。これをモデリングするのに問題があります。たとえば、ポアソン回帰を使用して各チームが得点するゴールの数をモデル化し、それらの確率のグリッドを計算できますが、独立性の仮定にはあまり満足していません。また、2変量ポアソンを行うこともできましたが、これにはあまり経験がありません。結果が相互に排他的であるという事実を維持しながら、結果の2つのチームへの依存をモデル化するための適切なアプローチは何なのかと思います（ドローの損失に勝つために割り当てられた確率は合計で1になるはずです）。

7 regression modeling poisson-distribution

1

ポアソン、二項、負の二項分布と正規分布の関係

離散カウント分布を定義する必要がある場合、通常は次を使用します。ポアソン分布、平均=分散の場合二項分布、平均の場合>分散負の二項分布、平均<分散の場合私の質問は、正規分布を使用して概算することは可能ですか？たとえば、ポアソン分布（平均= 4）を得るには、正規分布（平均=分散= 4）から始めます。 x=seq(0,20,1) plot(x,dpois(x,4)) points(x,dnorm(x,4,2),col=2) 2つの密度に大きな違いはないことがわかります。ここで、しきい値とルールを定義すると、次のようになります。通常の法則の結果が負の場合、それは0です x = 6.2の場合、6などになります。正規分布からこのような近似を使用して、ポアソン分布を完全に定義することは可能ですか？負の二項と二項についても同じことが言えます。なぜこれをしようとするのですか？通常、実際のデータでポアソン分布を定義しようとすると、平均=分散はありません。したがって、ポアソン分布を使用する場合、これはほぼこの条件があるためです。これらの3つのケースについて、（実際のデータから）推定された平均と分散を使用して議論する必要があります。だから、私の考えは常に使用することです正規分布を定義するための経験的平均と分散次に、これらのパラメータの関数でいくつかの「ルール」を定義しますシミュレートされた離散カウントデータの平均と分散を計算するために、初期の経験的平均と分散を検証できます。離散カウントデータをシミュレートする場合、ポアソン分布、二項分布、または負の二項分布を使用するのではなく、この方法についてどう思いますか？

7 normal-distribution binomial poisson-distribution negative-binomial count-data

1

固定間隔の指数加数の数はポアソン

固定間隔の独立指数加数がポアソン確率変数として分布していることを証明する最も賢い方法は何ですか？私はそれを一つの方法で行うことができますが、より多くのスタイルポイントを得る別の方法があるかどうか知りたいです。 LET。明確にするために、密度はそれぞれです。ここで、t> 0の場合、K_t = \ {j：S_1 + \ cdots S_j <t <S_1 + \ cdots + S_j + S_ {j + 1} \}を定義します。S1,S2,…∼iidExponential(μ)S1,S2,…∼iidExponential(μ)S_1, S_2, \ldots \overset{iid}{\sim} \text{Exponential}(\mu)fS(s)=μe−μsfS(s)=μe−μsf_S(s) = \mu e^{-\mu s}t>0t>0t > 0Kt={j:S1+⋯Sj<t<S1+⋯+Sj+Sj+1}Kt={j:S1+⋯Sj<t<S1+⋯+Sj+Sj+1}K_t = \{j : S_1 + \cdots S_j < t < S_1 + \cdots + S_j + S_{j+1}\} …

7 poisson-distribution exponential queueing

タグ付けされた質問 「poisson-distribution」

タグ付けされた質問「poisson-distribution」