タグ付けされた質問 「gamma-distribution」

2つの厳密に正のパラメーターによってインデックスが付けられた非負の連続確率分布。

3
分布を見つけて正規分布に変換する
1時間にイベントが発生する頻度(「1時間あたりの数」、nph)とイベントが持続する時間(「1秒あたりの秒数」、dph)を説明するデータがあります。 これは元のデータです: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, 15.3750000002237, NA, 6.00000000004109, 9.71428571436649, 12.4848484848485, 16.5034965037115, 20.6666666666667, 3.49999999997453, 4.65882352938624, 4.74999999996544, 3.99999999994522, 2.8, 14.2285714286188, 11.0000000000915, NA, 2.66666666666667, 3.76470588230138, 4.70588235287673, 13.2727272728677, 2.0000000000137, 18.4444444444444, 17.5555555555556, 14.2222222222222, 2.00000000001663, 4, 8.46153846146269, 19.2000000001788, 13.9024390245481, 13, 3.00000000004366, NA, …
8 normal-distribution  data-transformation  logistic  generalized-linear-model  ridge-regression  t-test  wilcoxon-signed-rank  paired-data  naive-bayes  distributions  logistic  goodness-of-fit  time-series  eviews  ecm  panel-data  reliability  psychometrics  validity  cronbachs-alpha  self-study  random-variable  expected-value  median  regression  self-study  multiple-regression  linear-model  forecasting  prediction-interval  normal-distribution  excel  bayesian  multivariate-analysis  modeling  predictive-models  canonical-correlation  rbm  time-series  machine-learning  neural-networks  fishers-exact  factorisation-theorem  svm  prediction  linear  reinforcement-learning  cdf  probability-inequalities  ecdf  time-series  kalman-filter  state-space-models  dynamic-regression  index-decomposition  sampling  stratification  cluster-sample  survey-sampling  distributions  maximum-likelihood  gamma-distribution 

1
効率よく測定されたポアソンプロセスで、測定されたカウントはまだポアソンですか?
状況: たとえば、放射性崩壊のようなポアソンプロセスがあり、毎秒R粒子を生成するとします。検出器で測定します。粒子が検出器によって検出される確率Pがあります。 私が知っていると思うこと: 粒子放出の到着間時間は、Rに基づくパラメーターで指数的に分布します。 検出前に放出される粒子の数は、Pに基づく負の二項式によって与えられます。 数Nが(2)からサンプリングされる場合、検出された粒子の到着時間の単一サンプルは、(1)からのNサンプルの合計によって与えられます。この合計は、NとRに基づくパラメーターを使用してガンマ分布からサンプリングすることで取得できます。 私の質問: NとRに基づいてガンマからサンプリングすることで単一の到着時間を計算できる場合、間隔内の検出器の数はどのようにして再びポアソンになるのでしょうか?(ポアソンであるためには、検出器の到着時間は指数であり、奇妙なガンマの事柄に従って分布されていない必要があります。)もちろんNは変動しますが、これがどのように機能するかはわかりません。 ただし、検出器の数が実際にポアソン分布であることはほぼ確実です。誰かが数学を教えてくれませんか?助けてくれてありがとう! 編集: 私はこのペーパーを見つけました:Fried、DL「光電子放出電流のノイズ」。応用光学4.1(1965):79-80。 これは、二項で選択されたポアソン確率変数も、PRによって与えられた率でポアソンであるという結果を示しています。これは、jbowmanによるコメントを確認します。それでも、負の二項分布とガンマ分布を使用して検出器で到着間隔を生成するプロセスがどのように正しくないかについての説明を見てみたいと思います。これが私の大きな精神的なしゃっくりです。ありがとうございました。 編集2: 私はこのMATLABスクリプトを記述して、ガンマ分布で試みていたことが機能するかどうかをテストしました。幾何学的に分布したNで生成されたガンマ到着時間はどういうわけか指数関数的であり、Poisson(PR)によって提案された到着時間と一致することがわかります。(ia2とia3は同じように配布されます)。これが分析的にどのように機能するかについての考えはありますか?直感的にはわかりませんでした。 close all n = 100000; ia1 = exprnd(1,n,1); % create exponentially distributed inter-arrival times t1 = cumsum(ia1); % running sum (the real experiment time) mask = (rand(n,1) > 0.5); % flip a coin t2 = t1(mask); …

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

1
RまたはRPyの逆ガンマ分布の最尤推定
3つのパラメーターの逆ガンマ分布をRまたはPythonのデータに適合させようとしています。最尤推定(MLE)を使用してこれを実行したいと思います。 3つのパラメーターの逆ガンマのpdfは、次の式で与えられます。 ここで、Γはガンマ関数、ρは形状、αはスケール、sは位置パラメーターです。 私はこのディストリビューションに対して直接MLEを実行できるRパッケージを発見していません(知っている場合はお知らせください!)。だから私はこれがどちらかを残すと思います: (A)式の対数尤度関数を計算する (B)データをガンマ分布に変換する。ただし、この分布には2つのパラメーターしかないため、3番目のパラメーターの計算方法がわかりません(私はあまり数学者ではありません!)。 MLEを使用して逆ガンマ分布を私のデータに合わせる方法についての助けがあれば大歓迎です!よろしくお願いします。

3
ベイズ計量経済学におけるガンマ分布のパラメータに関する質問
ウィキペディアのガンマ分布に関する記事には、2つの異なるパラメーター化手法がリストされています。そのうちの1つは、ベイズ計量経済学でおよびβ > 0として頻繁に使用され、αは形状パラメーター、βはレートパラメーターです。α > 0α>0\alpha>0β> 0β>0\beta>0αα\alphaββ\beta バツ〜G A M M A(α 、β)。X∼Gamma(α,β).X\sim \mathrm{Gamma}(\alpha,\beta). ゲイリー・コープによって書かれたベイズ計量経済学の教科書では、精度パラメーターあるガンマ分布、次の事前分布を1σ2= h1σ2=h\frac{1}{\sigma^2}=h H 〜G A M M A(S–− 2、ν––)、h∼Gamma(s_−2,ν_),h\sim \mathrm{Gamma}(\underline{s}^{-2},\underline{\nu}), ここで、は平均であり、v _は彼の付録によると自由度です。また、s 2は定義付きの標準エラーですs–− 2s_−2\underline{s}^{-2}ν––ν_\underline{\nu}s2s2s^2 s2= ∑ (y私- β^バツ私)ν。s2=∑(yi−β^xi)ν.s^2=\frac{\sum(y_i-\hat{\beta}x_i)}{\nu}. したがって、平均と分散が異なるため、私にとって、ガンマ分布のこれら2つの定義は完全に異なります。ウィキペディアの定義に従うと、平均はs _ − 2ではなく、なります。α / βα/β\alpha/\betas–− 2s_−2\underline{s}^{-2} 私はここで非常に混乱していますが、誰かが私がここで考えを強化するのを手伝ってくれませんか?

1
ガンマ分布からポアソン分布を導き出す方法は?
ましょうT1,T2,…T1,T2,…T_1, T_2, \dotsパラメータの指数確率変数のIIDシーケンスですλλ\lambda。合計は、ガンマ分布です。今私が理解しているように、ポアソン分布はによって次のように定義されています:N tSn=T1+T2+⋯+TnSn=T1+T2+⋯+TnS_n = T_1 + T_2 + \dots + T_nNtNtN_t Nt=max{k:Sk≤t}Nt=max{k:Sk≤t}N_t = \max\{k: S_k \le t\} がポアソン確率変数であることを正式に示すにはどうすればよいですか?NtNtN_t どんな提案も歓迎します。いくつかの証明を試みましたが、最終的な方程式に到達できませんでした。 参考文献 http://en.wikipedia.org/wiki/Exponential_distribution http://en.wikipedia.org/wiki/Gamma_distribution http://en.wikipedia.org/wiki/Poisson_distribution

1
示す場合」sは独立していると場合
ましょう独立ランダム変数です。Xi∼Gamma(α,pi),i=1,2,...,n+1Xi∼Gamma(α,pi),i=1,2,...,n+1X_i\sim\text{Gamma}(\alpha,p_i),i=1,2,...,n+1 定義と。次に、が独立して分布していることを示します。Z1=∑n+1i=1XiZ1=∑i=1n+1XiZ_1=\sum_{i=1}^{n+1}X_iZi=Xi∑ij=1Xj,i=2,3,...,n+1Zi=Xi∑j=1iXj,i=2,3,...,n+1Z_i=\frac{X_i}{\sum_{j=1}^iX_j},\quad i=2,3,...,n+1Z1,Z2,...,Zn+1Z1,Z2,...,Zn+1Z_1,Z_2,...,Z_{n+1} の結合密度は、(X1,...,Xn+1)(X1,...,Xn+1)(X_1,...,X_{n+1}) fX(x1,...,xn+1)=[α∑n+1i=1pi∏n+1i=1Γ(pi)exp(−α∑i=1n+1xi)∏i=1n+1xpi−1i]Ixi>0,α>0,pi>0fX(x1,...,xn+1)=[α∑i=1n+1pi∏i=1n+1Γ(pi)exp⁡(−α∑i=1n+1xi)∏i=1n+1xipi−1]Ixi>0,α>0,pi>0f_{\bf X}(x_1,...,x_{n+1})=\left[\frac{\alpha^{\sum_{i=1}^{n+1}p_i}}{\prod_{i=1}^{n+1}\Gamma(p_i)}\exp\left(-\alpha\sum_{i=1}^{n+1}x_i\right)\prod_{i=1}^{n+1}x_i^{p_i-1}\right]\mathbf I_{x_i>0}\quad,\alpha>0,p_i>0 我々変換、その結果X=(X1,⋯,Xn+1)↦Z=(Z1,⋯,Zn+1)X=(X1,⋯,Xn+1)↦Z=(Z1,⋯,Zn+1)\mathbf X=(X_1,\cdots,X_{n+1})\mapsto\mathbf Z=(Z_1,\cdots,Z_{n+1}) Z1=∑n+1i=1XiZ1=∑i=1n+1XiZ_1=\sum_{i=1}^{n+1}X_iおよびZi=Xi∑ij=1Xj,i=2,3,...,n+1Zi=Xi∑j=1iXj,i=2,3,...,n+1Z_i=\frac{X_i}{\sum_{j=1}^iX_j},\quad i=2,3,...,n+1 ⟹xn+1=z1zn+1,⟹xn+1=z1zn+1,\implies x_{n+1}=z_1z_{n+1}, xn=z1zn(1−zn+1),xn=z1zn(1−zn+1),\qquad x_n=z_1z_n(1-z_{n+1}), xn−1=z1zn−1(1−zn)(1−xn+1),xn−1=z1zn−1(1−zn)(1−xn+1),\qquad x_{n-1}=z_1z_{n-1}(1-z_n)(1-x_{n+1}), ⋮⋮\qquad\vdots x3=z1z3∏n+1j=4(1−zj)x3=z1z3∏j=4n+1(1−zj)\qquad x_3=z_1z_3\prod_{j=4}^{n+1}(1-z_j) x2=z1z2∏n+1j=3(1−zj)x2=z1z2∏j=3n+1(1−zj)\qquad x_2=z_1z_2\prod_{j=3}^{n+1}(1-z_j) x1=z1∏n+1j=2(1−zj)x1=z1∏j=2n+1(1−zj)\qquad x_1=z_1\prod_{j=2}^{n+1}(1-z_j)、ここでおよび0<z1<∞0<z1<∞00および(。pi>0pi>0p_i>0i=1,2,...,n+1i=1,2,...,n+1i=1,2,...,n+1 言うまでもなく、逆解見つけてヤコビアンを評価するのは面倒で時間がかかりました。仕事をでなく、の分布も決定します。xixix_iZiZiZ_i の独立性を示す簡単な方法はありますか?ZiZiZ_i

1
MLE of
LET PDFファイルとの分布からのランダムサンプルである X1,X2,X3,...,XnX1,X2,X3,...,XnX_{1},X_{2},X_{3},...,X_{n}f(x;α,θ)=e−x/θθαΓ(α)xα−1I(0,∞)(x),α,θ>0f(x;α,θ)=e−x/θθαΓ(α)xα−1I(0,∞)(x),α,θ>0f(x;\alpha,\theta)=\frac{e^{-x/\theta}}{\theta^{\alpha}\Gamma(\alpha)}x^{\alpha-1}I_{(0,\infty)}(x ),\alpha,\theta>0 およびの最尤推定量をます。ましょうαα\alphaθθ\thetaΨ(α)=dΓ(α)dαΨ(α)=dΓ(α)dα\Psi(\alpha)=\frac{d\Gamma(\alpha)}{d\alpha} 私の試み、 L(α,θ)===∏i=1nf(xi)∏i=1ne−xi/θθαΓ(α)xα−1i1Γn(α)⋅θnα(∏i=1nxi)α−1exp(−∑i=1nxiθ)L(α,θ)=∏i=1nf(xi)=∏i=1ne−xi/θθαΓ(α)xiα−1=1Γn(α)⋅θnα(∏i=1nxi)α−1exp⁡(−∑i=1nxiθ)\begin{eqnarray*} \mathcal{L}(\alpha,\theta)&=&\prod_{i=1}^{n}f(x_i)\\ &=&\prod_{i=1}^{n}\frac{e^{-x_i/\theta}}{\theta^{\alpha}\Gamma(\alpha)}x_i^{\alpha-1}\\ &=&\frac{1}{\Gamma^{n}(\alpha)\cdot \theta^{n \alpha}}(\prod_{i=1}^{n}x_i)^{\alpha-1}\exp(-\sum_{i=1}^{n}\frac{x_i}{\theta}) \end{eqnarray*} ℓ(α,θ)δℓ(α,θ)δθ1θ2∑i=1nxiθ^=====−nlog(Γ(α))−nαlog(θ)+(α−1)∑i=1nlog(xi)−1θ∑i=1nxi−nαθ+1θ2∑i=1nxi=0nαθ∑ni=1xinα1αx¯ℓ(α,θ)=−nlog⁡(Γ(α))−nαlog⁡(θ)+(α−1)∑i=1nlog⁡(xi)−1θ∑i=1nxiδℓ(α,θ)δθ=−nαθ+1θ2∑i=1nxi=01θ2∑i=1nxi=nαθθ^=∑i=1nxinα=1αx¯\begin{eqnarray*} \ell(\alpha,\theta)&=&-n\log(\Gamma(\alpha))-n\alpha\log(\theta)+(\alpha-1)\sum_{i=1}^{n}\log(x_i)-\frac{1}{\theta}\sum_{i=1}^{n}x_i\\ \frac{\delta \ell(\alpha,\theta)}{\delta \theta}&=&-\frac{n\alpha}{\theta}+\frac{1}{\theta^2}\sum_{i=1}^{n}x_i=0\\ \frac{1}{\theta^2}\sum_{i=1}^{n}x_i&=&\frac{n\alpha}{\theta}\\ \hat{\theta}&=&\frac{\sum_{i=1}^{n}x_i}{n\alpha}\\ &=&\frac{1}{\alpha}\bar{x}\\ \end{eqnarray*} dℓ(α,θ^)dαlog(α)−Γ′(α)Γ(α)===−n⋅Γ′(α)Γ(α)−nlog(1αx¯)+∑i=1nlog(xi)=0−n⋅Γ′(α)Γ(α)+nlog(α)−nlog(x¯)+∑i=1nlog(xi)=0log(x¯)−∑ni=1log(xi)ndℓ(α,θ^)dα=−n⋅Γ′(α)Γ(α)−nlog⁡(1αx¯)+∑i=1nlog⁡(xi)=0=−n⋅Γ′(α)Γ(α)+nlog⁡(α)−nlog⁡(x¯)+∑i=1nlog⁡(xi)=0log⁡(α)−Γ′(α)Γ(α)=log⁡(x¯)−∑i=1nlog⁡(xi)n\begin{eqnarray*} \frac{d \ell(\alpha,\hat{\theta})}{d\alpha}&=&\frac{-n \cdot \Gamma'(\alpha)}{\Gamma(\alpha)}-n\log(\frac{1}{\alpha}\bar{x})+\sum_{i=1}^{n}\log(x_i)=0\\ &=&\frac{-n \cdot \Gamma'(\alpha)}{\Gamma(\alpha)}+n\log(\alpha)-n\log(\bar{x})+\sum_{i=1}^{n}\log(x_i)=0\\ \log(\alpha)-\frac{\Gamma'(\alpha)}{\Gamma(\alpha)}&=&\log(\bar{x})-\frac{\sum_{i=1}^{n}\log(x_i)}{n} \end{eqnarray*} を見つけることができなくなった。第二に、質問で与えられているように、\ Psi(\ alpha)= \ frac {d \ Gamma(\ alpha)} {d \ alpha}の使い方がわかりません。誰かが私にそれを説明できることを願っています。αα\alphaΨ(α)=dΓ(α)dαΨ(α)=dΓ(α)dα\Psi(\alpha)=\frac{d\Gamma(\alpha)}{d\alpha} 前もって感謝します。

2
非整数パラメーターによるガンマ分布の動機
Erlang分布は、ポアソンプロセスで事前定義された数のイベントが発生するまでの待機時間、または事前定義された数の指数確率変数の合計に関して、簡単に解釈できます。ガンマ分布は、非整数パラメーターを許容するため、より一般的ですが、通常、同じ動機が与えられます。私はこの質問が何度か出されたことを知っていますが、満足のいく答えが見当たらないので、もう一度提起します:ガンマ分布ランダム変数を発生させるランダムプロセスの正規または少なくともプロトタイプの例は何ですか?同時にErlang確率変数ではありませんか?


1
ワイブル対ガンマ分布
ライン上の連続するポイント間の距離を含むデータ(1Dベクトル)があります。 伝統的に私の分野では、このようなデータは、ポイントの分布を説明するためにガンマ分布で適合されますが、場合によっては、ワイブル分布がよりよく適合する(BIC / AICに基づくとより高い可能性)または場合によっては、ワイブルが任意の有意性に適合する唯一の分布です。私はワイブル分布に過度に精通していません-これは私のデータサンプルについて何を明らかにしているでしょうか?ガンマとは対照的に、ワイブルでよりよく表される、より短い距離またはより長い距離への特定のスキューはありますか?ここで適用できるガンマとワイブルの主な違いは何ですか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.