タグ付けされた質問 「gamma-distribution」

2つの厳密に正のパラメーターによってインデックスが付けられた非負の連続確率分布。

1
ガンマ分布を使用したディリクレ分布の構築
ましょうX1,…,Xk+1X1,…,Xk+1X_1,\dots,X_{k+1}互いに独立ランダム変数であり、パラメータを持つそれぞれ有するガンマ分布ショーをそのには、αi,i=1,2,…,k+1αi,i=1,2,…,k+1\alpha_i,i=1,2,\dots,k+1Yi=XiX1+⋯+Xk+1,i=1,…,kYi=XiX1+⋯+Xk+1,i=1,…,kY_i=\frac{X_i}{X_1+\cdots+X_{k+1}},i=1,\dots,kDirichlet(α1,α2,…,αk;αk+1)Dirichlet(α1,α2,…,αk;αk+1)\text{Dirichlet}(\alpha_1,\alpha_2,\dots,\alpha_k;\alpha_{k+1}) 関節PDF次に関節を見つけるPDF私はヤコビアンすなわち見つけることができません(X1,…,Xk+1)=e−∑k+1i=1xixα1−11…xαk+1−1k+1Γ(α1)Γ(α2)…Γ(αk+1)(X1,…,Xk+1)=e−∑i=1k+1xix1α1−1…xk+1αk+1−1Γ(α1)Γ(α2)…Γ(αk+1)(X_1,\dots,X_{k+1})=\frac{e^{-\sum_{i=1}^{k+1}x_i}x_1^{\alpha_1-1}\dots x_{k+1}^{\alpha_{k+1}-1}}{\Gamma(\alpha_1)\Gamma(\alpha_2)\dots \Gamma(\alpha_{k+1})}(Y1,…,Yk+1)(Y1,…,Yk+1)(Y_1,\dots,Y_{k+1})J(x1,…,xk+1y1,…,yk+1)J(x1,…,xk+1y1,…,yk+1)J(\frac{x_1,\dots,x_{k+1}}{y_1,\dots,y_{k+1}})


2
2つのガンマ分布間のKullback–Leibler発散
pdfによる ガンマ分布パラメーター化の選択と 間の -Leibler発散は、[1]で与えられます。Γ(b,c)Γ(b,c)\Gamma(b,c)g(x;b,c)=1Γ(c)xc−1bce−x/bg(x;b,c)=1Γ(c)xc−1bce−x/bg(x;b,c) = \frac{1}{\Gamma(c)}\frac{x^{c-1}}{b^c}e^{-x/b}Γ(bq,cq)Γ(bq,cq)\Gamma(b_q,c_q)Γ(bp,cp)Γ(bp,cp)\Gamma(b_p,c_p) KLGa(bq,cq;bp,cp)=(cq−1)Ψ(cq)−logbq−cq−logΓ(cq)+logΓ(cp)+cplogbp−(cp−1)(Ψ(cq)+logbq)+bqcqbpKLGa(bq,cq;bp,cp)=(cq−1)Ψ(cq)−log⁡bq−cq−log⁡Γ(cq)+log⁡Γ(cp)+cplog⁡bp−(cp−1)(Ψ(cq)+log⁡bq)+bqcqbp\begin{align} KL_{Ga}(b_q,c_q;b_p,c_p) &= (c_q-1)\Psi(c_q) - \log b_q - c_q - \log\Gamma(c_q) + \log\Gamma(c_p)\\ &\qquad+ c_p\log b_p - (c_p-1)(\Psi(c_q) + \log b_q) + \frac{b_qc_q}{b_p} \end{align} Ψ(x):=Γ′(x)/Γ(x)Ψ(x):=Γ′(x)/Γ(x)\Psi(x):= \Gamma'(x)/\Gamma(x)がディガンマ関数であると推測しています。 これは派生なしで与えられます。これを導き出す参考文献は見つかりません。助けがありますか?適切なリファレンスで十分です。難しいのは、をガンマpdfに統合することです。logxlog⁡x\log x [1] WD Penny、KLダイバージェンスのNormal、Gamma、Dirichlet、およびWishart密度、www.fil.ion.ucl.ac.uk /〜wpenny / publications / densities.psで入手可能

1
なぜ彼らはここでガンマ分布を選ぶのでしょうか?
私のコースの演習の1 つでは、Kaggleの医療データセットを使用しています。 演習では次のように述べています。 個々の料金の分布をモデル化し、その分布に関する不確実性をキャプチャできるようにしたいので、表示される値の範囲をより適切にキャプチャできます。データの読み込みと初期ビューの実行: 上記のことから、ここでは何らかの指数関数的な分布があると思われるかもしれません。...保険金請求額はマルチモーダルである可能性があります。ガンマ分布が適用される可能性があり、最初に保険金請求ではなかった料金の分布についてこれをテストできます。 「ガンマ分布」を調べて、「平均到着時間«ベータ»のポアソンプロセスで«アルファ»イベントが発生するのに必要な時間をエンコードする、連続した正の単峰分布」を見つけました。 ここには時間はかからず、保険に関係なく、関係のない料金だけがかかります。 なぜ彼らはガンマ分布を選ぶのでしょうか?

1
修正ディリクレ分布の期待値は何ですか?(統合の問題)
同じスケールパラメーターのガンマ変数を使用して、ディリクレ分布でランダム変数を生成するのは簡単です。次の場合: Xi∼Gamma(αi,β)Xi∼Gamma(αi,β) X_i \sim \text{Gamma}(\alpha_i, \beta) 次に: (X1∑jXj,…,Xn∑jXj)∼Dirichlet(α1,…,αn)(X1∑jXj,…,Xn∑jXj)∼Dirichlet(α1,…,αn) \left(\frac{X_1}{\sum_j X_j},\; \ldots\; , \frac{X_n}{\sum_j X_j}\right) \sim \text{Dirichlet}(\alpha_1,\;\ldots\;,\alpha_n) 問題 スケールパラメーターが等しくない場合はどうなりますか? Xi∼Gamma(αi,βi)Xi∼Gamma(αi,βi) X_i \sim \text{Gamma}(\alpha_i, \beta_i) 次に、この変数の分布は何ですか? (X1∑jXj,…,Xn∑jXj)∼?(X1∑jXj,…,Xn∑jXj)∼? \left(\frac{X_1}{\sum_j X_j},\; \ldots\; , \frac{X_n}{\sum_j X_j}\right) \sim \; ? 私にとっては、この分布の期待値を知るだけで十分でしょう。 コンピューターで非常に高速に評価できる近似の閉じた代数式が必要です。 0.01の精度での近似で十分だとしましょう。 あなたはそれを仮定することができます: αi,βi∈Nαi,βi∈N \alpha_i, \beta_i \in \mathbb{N} 注要するに、タスクはこの積分の近似値を見つけることです。 f(α⃗ ,β⃗ )=∫Rn+x1∑jxj⋅∏jβαjjΓ(αj)xαj−1je−βjxjdx1…dxnf(α→,β→)=∫R+nx1∑jxj⋅∏jβjαjΓ(αj)xjαj−1e−βjxjdx1…dxn f(\vec{\alpha}, \vec{\beta}) = …

1
ガンマ分布とカイ二乗分布の関係
場合、すなわち、全て、同じ分散を有するゼロ平均の正規確率変数IIDれます次いで、 X 、I〜N(0 、σ 2)X 、I Y 〜Γ (NY=∑i=1NX2iY=∑i=1NXi2Y=\sum_{i=1}^{N}X_i^2Xi∼N(0,σ2)Xi∼N(0,σ2)X_i \sim \mathcal{N}(0,\sigma^2)X私X私X_iY〜 Γ (N2、2σ2)。Y∼Γ(N2、2σ2)。Y \sim \Gamma\left(\frac{N}{2},2\sigma^2\right). カイ2乗分布はガンマ分布の特殊なケースですが、ランダム変数Yのカイ2乗分布を導出できませんでしたYYY。助けてください?


3
テストスコアは本当に正規分布に従っていますか?
GLMでどのディストリビューションを使用するかを学習しようとしており、通常のディストリビューションを使用するタイミングについて少し混乱しています。私の教科書の一部では、正規分布は試験の得点をモデル化するのに適していると言っています。次のパートでは、自動車保険の請求をモデル化するのにどのような配分が適切かを尋ねます。今回は、正の値のみで連続しているため、適切な分布はガンマまたは逆ガウスになると述べました。まあ、試験の得点も正の値のみで連続するので、なぜそこに正規分布を使用するのでしょうか?正規分布は負の値を許可しませんか?

3
2つの独立したガンマ確率変数の合計
ガンマ分布に関するウィキペディアの記事によると: もしバツ〜G A M M A(、θ )バツ〜Gamma(a、θ)X\sim\mathrm{Gamma}(a,\theta)と、及び独立ランダム変数であり、次いで、。X Y X + Y 〜G MをM(+のB 、θ )Y〜G A M M A(B 、θ )Y〜Gamma(b、θ)Y\sim\mathrm{Gamma}(b,\theta)バツバツXYYYバツ+ Y〜G A M M A(+のB 、θ )バツ+Y〜Gamma(a+b、θ)X+Y\sim \mathrm{Gamma}(a+b, \theta) しかし、証拠は見当たりません。誰かがその証拠を教えてくれますか? 編集:Zenに感謝します。また、ウィキペディアのページで特性関数に関する回答を例として見つけました。

2
データのサンプルがガンマ分布のファミリーに適合するかどうかをテストする方法は?
連続ランダム変数Xから生成されたデータのサンプルがあります。そして、Rを使用して描画したヒストグラムから、Xの分布は特定のガンマ分布に従っていると思います。しかし、私はこのガンマ分布の正確なパラメーターを知りません。 私の質問は、Xの分布がガンマ分布のファミリーに属するかどうかをテストする方法ですか?Kolmogorov-Smirnov検定、Anderson-Darling検定などの適合度検定がいくつか存在しますが、これらの検定を使用する際の制限の1つは、理論分布のパラメーターを事前に知っておく必要があることです。この問題を解決する方法を教えてください。

2
ガンマ分布でGLMにRを使用する
現在、ガンマ分布を使用してGLMを近似するためのRの構文を理解するのに問題があります。 データのセットがあり、各行には3つの共変量()、応答変数(Y)、および形状パラメーター(K)が含まれています。ガンマ分布のスケールを3つの共変量の線形関数としてモデル化したいのですが、データの各行に対して分布の形状をKに設定する方法がわかりません。X1,X2,X3X1,X2,X3X_1, X_2, X_3YYYKKKKKK 私が似ていると思う状況は、二項分布の場合、GLMでは各データエントリについて試行回数()がわかっている必要があるということです。NNN

1
パレート/ nbdモデルを概念的に理解することは可能ですか?
パレート/ NBDモデルを使用して、顧客がいつ戻ってくるかを予測するBTYDパッケージを使用することを学んでいます。ただし、このモデルに関するすべての文献には数学が満載されており、このモデルの動作についての単純な/概念的な説明はないようです。非数学者のパレート/ NBDモデルを理解することは可能ですか?フェーダーのこの有名な論文を読んだ。パレート/ NBDモデルは、次のことを前提としています。 私。アクティブな場合、長さtの期間に顧客によって行われたトランザクションの数は、トランザクションレートλでポアソン分布されます。 ii。顧客間のトランザクションレートの不均一性は、形状パラメーターrとスケールパラメーターαのガンマ分布に従います。 iii。各顧客には、長さτの観察されない「寿命」があります。顧客が非アクティブになるこのポイントは、ドロップアウト率µで指数関数的に分布します。 iv)顧客全体のドロップアウト率の不均一性は、形状パラメーターsとスケールパラメーターβのガンマ分布に従います。 v。トランザクションレートλとドロップアウトレートµは、顧客ごとに独立して変化します。」 仮定(ii)、(iii)、および(iv)の理論的根拠(背後にある直感)がわかりません。なぜこれらのディストリビューションのみで、他のディストリビューションではないのですか? また、BG / NBDモデルの仮定は次のとおりです。 i。)アクティブになっている間、顧客によって行われたトランザクションの数は、トランザクションレートλでポアソンプロセスに従います。これは、トランザクション間の時間がトランザクションレートλで指数関数的に分布していると仮定するのと同じです。 ii)λの不均一性はガンマ分布に従う iii)取引後、顧客は確率pで非アクティブになります。したがって、顧客が「ドロップアウト」するポイントは、pmfを使用した(シフトされた)幾何分布に従ってトランザクション全体に分散されます。 iv)ベータ分布に従うpの不均一性 仮定(ii)、(iii)、および(iv)の(直観的な)合理性もまったく明らかではありません。 どんな助けにも感謝します。ありがとう。

1
ログリンクされたガンマGLM対ログリンクされたガウスGLM対ログ変換されたLM
私の結果から、GLM Gammaはほとんどの仮定を満たしているように見えますが、ログ変換されたLMよりも価値のある改善でしょうか?私が見つけたほとんどの文献は、ポアソンまたは二項GLMを扱っています。ランダム化を使用した一般化線形モデルの仮定の評価の記事は非常に有用であることがわかりましたが、意思決定に使用される実際のプロットが欠けています。うまくいけば、経験のある人が私を正しい方向に向けることができます。 応答変数Tの分布をモデル化したいのですが、その分布を下にプロットします。ご覧のとおり、正の歪度です 。 考慮すべき2つのカテゴリー要因があります:METHとCASEPART。 この研究は主に探索的であり、モデルを理論化してその周辺でDoEを実行する前のパイロット研究として本質的に機能することに注意してください。 Rには次のモデルと診断プロットがあります。 LM.LOG<-lm(log10(T)~factor(METH)+factor(CASEPART),data=tdat) GLM.GAMMA<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="Gamma"(link='log')) GLM.GAUS<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="gaussian"(link='log')) また、Shapiro-Wilksの残差検定を使用して、次のP値を達成しました。 LM.LOG: 2.347e-11 GLM.GAMMA: 0.6288 GLM.GAUS: 0.6288 AICとBICの値を計算しましたが、正しい場合は、GLM / LMのさまざまなファミリーのために、あまりわかりません。 また、極端な値に注意しましたが、明確な「特別な原因」がないため、それらを外れ値として分類することはできません。

2
exp(X)〜Gammaの場合、Xをすばやくサンプリングする方法は?
単純なサンプリングの問題があり、私の内部ループは次のようになります。 v = sample_gamma(k, a) ここでsample_gamma、ガンマ分布からのサンプルがディリクレのサンプルを形成します。 うまく機能しますが、k / aの値によっては、ダウンストリームの計算の一部がアンダーフローします。 ログスペース変数を使用するように調整しました。 v = log(sample_gamma(k, a)) プログラムの残りのすべてを適応させた後、正しく動作します(少なくとも、テストケースで同じ正確な結果が得られます)。ただし、以前よりも遅くなります。 log ()のような遅い関数を使用せずに、を直接サンプリングする方法はありますか?私はこれをグーグルで試しましたが、このディストリビューションに共通名(log-gamma?)があるかどうかさえ知りません。X,exp(X)∼GammaX,exp⁡(X)∼GammaX, \exp(X) \sim \text{Gamma}log()log⁡()\log()

3
の期待値をどのように計算します
場合XiXiX_i指数関数的に分布している(i=1,...,n)(i=1,...,n)(i=1,...,n)パラメータとλλ\lambdaとXiXiX_i「sは、互いに独立している、の期待何 (∑i=1nXi)2(∑i=1nXi)2 \left(\sum_{i=1}^n {X_i} \right)^2 面でnnnとλλ\lambdaとおそらく他の定数は? 注:この質問は、https : //math.stackexchange.com/q/12068/4051で数学的な答えを得ています。読者もそれを見るでしょう。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.