統計とビッグデータ beta-binomial

11

免責事項：私は統計学者ではなく、ソフトウェアエンジニアです。統計に関する私の知識のほとんどは独学から得たものなので、ここでは他の人にとってはささいな概念の理解にまだ多くのギャップがあります。したがって、回答に具体性の低い用語とより多くの説明が含まれていれば、非常に感謝します。おばあちゃんと話していると想像してください:) 私が把握しようとしている自然のベータ分布をどのようにそれぞれの場合に、それを解釈することはのために使用すべきかと- 。たとえば、正規分布について話している場合、電車の到着時間として説明することができます。最も頻繁にちょうど間に合うように到着し、少し少ない頻度で1分早くまたは1分遅れて、非常にまれに差で到着することはありません平均から20分。均一配布は、特に、宝くじの各チケットのチャンスを説明します。二項分布は、コインフリップなどで説明できます。しかし、ベータ分布のそのような直感的な説明はありますか？たとえば、およびとしましょう。この場合のベータ分布は、次のようになります（Rで生成）：α=.99α=.99\alpha=.99β=.5β=.5\beta=.5B(α,β)B(α,β)B(\alpha, \beta) しかし、実際にはどういう意味ですか？Y軸は明らかに確率密度ですが、X軸には何がありますか？この例または他の例を使用して、説明をいただければ幸いです。

438 distributions beta-distribution intuition beta-binomial

6

二項分布とベータ分布の関係

私は統計学者というよりもプログラマーなので、この質問があまりにも素朴ではないことを願っています。ランダムにプログラムの実行をサンプリングするときに発生します。プログラムの状態のN = 10のランダムな時間のサンプルを取得すると、たとえば、それらのサンプルのI = 3で関数Fooが実行されていることがわかります。Fooが実行されている時間Fの実際の割合について、それが何を教えてくれるのか興味があります。私は平均F * Nで二項分布していることを理解しています。IとNが与えられると、Fはベータ分布に従うことも知っています。実際、私はこれらの2つのディストリビューション間の関係をプログラムで検証しました。 cdfBeta(I, N-I+1, F) + cdfBinomial(N, F, I-1) = 1 問題は、私が関係について直感的な感覚を持っていないことです。なぜそれが機能するのかを「描く」ことはできません。編集：すべての答えは、特に@whuberのように挑戦的でした。これはまだ理解する必要がありますが、統計を整理することは非常に役に立ちました。それにもかかわらず、私はもっと基本的な質問をするべきだったことに気付きました：IとNを考えると、Fの分布は何ですか？誰もがベータ版だと指摘しましたが、それは私が知っていました。私はついにウィキペディア（以前の共役）からそれがあるように思えたBeta(I+1, N-I+1)。プログラムでそれを調べた後、それは正しい答えのように見えます。だから、私が間違っているかどうかを知りたいです。そして、上記の2つのcdfの関係、なぜ合計が1になるのか、そして私が本当に知りたいことと何か関係があるのかどうか、まだ混乱しています。

27 binomial beta-binomial beta-distribution

3

分散データが不十分な場合の適切なモデルは何ですか？

私は、明らかに分散が不十分なRのカウントデータをモデル化しようとしています（分散パラメーター〜.40）。これがおそらくglmwith family = poissonまたは負の二項（glm.nb）モデルが重要でない理由です。データの説明を見ると、カウントデータの典型的なスキューはなく、2つの実験条件の残差も均一です。だから私の質問は：カウントデータが実際にカウントデータのように動作しない場合、カウントデータに特別な回帰分析を使用する必要さえありますか？私は時々非正規性に直面します（通常は尖度が原因です）が、非正規性を説明するためにトリム平均を比較するためにパーセンタイルブートストラップ法（Wilcox、2012）を使用しました。カウントデータのメソッドは、Wilcoxによって提案され、WRSパッケージで実現されている堅牢なメソッドに置き換えることができますか？カウントデータに回帰分析を使用する必要がある場合、分散不足をどのように説明しますか？ポアソン分布と負の二項分布はより高い分散を前提としているため、適切ではないでしょうか？準ポアソン分布を適用することを考えていましたが、通常は過剰分散に推奨されます。私は、Rのパッケージで過分散と過小分散を説明できると思われるベータ二項モデルについて読みましたVGAM。しかし、著者は、ティルドポアソン分布を推奨しているようですが、パッケージには見つかりません。。誰でもデータが分散していない場合の手順を推奨できますか？また、おそらくそのためのサンプルRコードを提供できますか？

24 r poisson-distribution negative-binomial beta-binomial underdispersion

3

ベータ分布密度関数に-1があるのはなぜですか？

ベータ分布は2つのパラメーター化（またはここ）で表示されます F （X ）α X α（1 - X ）βf(x)∝xα(1−x)β(1) f(x) \propto x^{\alpha} (1-x)^{\beta} \tag{1} または、より一般的に使用されると思われるもの F （X ）α X α - 1（1 - X ）β - 1f(x)∝xα−1(1−x)β−1(2) f(x) \propto x^{\alpha-1} (1-x)^{\beta-1} \tag{2} しかし、なぜ2番目の式に「− 1−1-1」があるのですか？最初の定式化は直観的に二項分布に直接対応するように思われます g （k ）∝ p k（1 − p ）n − kg(k)∝pk(1−p)n−k(3) g(k) \propto p^k (1-p)^{n-k} \tag{3} …

18 distributions references beta-distribution history beta-binomial

3

ベイジアンA / Bテストを終了するタイミング

ハッカーの確率的プログラミングとベイジアンA / Bテストのように、ベイジアン方式でA / Bテストを実行しようとしています。どちらの記事は、意思決定者が決定したと仮定し、より良い、単にいくつかの基準の確率に基づいて、例えばれるバリアントのどの、したがって、優れています。この確率は、そこから結論を引き出すのに十分な量のデータがあったかどうかについての情報を提供しません。そのため、いつテストを停止するかは不明です。P(pA>pB)=0.97P(pA>pB)=0.97P(p_A > p_B) = 0.97 AAA そこに2つのバイナリRV車、であると仮定し及び、私はそれがどのように可能性を推定することを、およびの観察に基づいて、および。さらに、および事後者がベータ配布されているとします。AAABBBpA>pBpA>pB p_A > p_B pA−pBpA>5%pA−pBpA>5% \frac{p_A - p_B}{p_A} > 5\% AAABBBpApAp_ApBpBp_B およびのパラメータを見つけることができるので、事後標本をサンプリングして、を推定できます。。Pythonでの例：α,βα,β\alpha, \betapA|datapA|datap_A\,|\,\text{data} pB|datapB|datap_B\,|\,\text{data} P(pA>pB | data)P(pA>pB | data)P(p_A > p_B\ |\ \text{data}) import numpy as np samples = {'A': np.random.beta(alpha1, beta1, 1000), 'B': np.random.beta(alpha2, beta2, 1000)} p = np.mean(samples['A'] …

10 bayesian beta-binomial

1

二項設定の下での成功の将来の割合の予測間隔

二項回帰を当てはめ、回帰係数の点推定と分散共分散行列を取得するとします。これにより、将来の実験で期待される成功の割合 CIを取得できますが、観測された割合のCIが必要です。シミュレーション（私はそれをしたくないと思う）やKrishnamoorthya et al（私の質問には完全には答えていません）へのリンクなど、いくつかの関連する回答が投稿されています。ppp 私の推論は次のとおりです：二項モデルだけを使用する場合、は（対応するWald CIを使用して）正規分布からサンプリングされると仮定する必要があるため、閉じた形式で観測された比率のCIを取得することは不可能です。がベータ分布からサンプリングされると仮定すると、成功数はベータ二項分布に従うため、状況ははるかに簡単です。推定ベータパラメーターおよび不確実性がないと仮定する必要があります。ppppppαα\alphaββ\beta 3つの質問があります。 1）理論的なもの：ベータパラメータのポイント推定値のみを使用しても問題ありませんか？多重線形回帰で将来の観測のためにCIを構築することを知っています Y=x′β+ϵ,ϵ∼N(0,σ2)Y=x′β+ϵ,ϵ∼N(0,σ2)Y = x'\beta + \epsilon, \epsilon \sim N(0, \sigma^2) 彼らはそのwrtエラー項分散ます。正当化の理由は、実際にはは回帰係数よりもはるかに高い精度で推定され、不確実性を取り入れようとしてもあまり利益が得られないということです。。同様の根拠は、推定されたベータパラメータと当てはまりますか？σ2σ2\sigma^2σ2σ2\sigma^2σ2σ2\sigma^2αα\alphaββ\beta 2）どのパッケージの方が優れていますか（R：gamlss-bb、betareg、aod ?; SASにもアクセスできます）。 3）推定されたベータパラメーターを前提として、将来の成功の数、またはさらに良いことに、ベータ二項分布の下での将来の成功の割合の分位数（2.5％、97.5％）を取得する（概算）ショートカットはありますか？

9 confidence-interval binomial beta-binomial beta-regression gamlss

4

2 X 3テーブルで複数の事後カイ2乗検定を実行する方法

私のデータセットは、沿岸、ミッドチャネル、オフショアの3つのサイトタイプでの生物の全死亡率または生存率で構成されています。下の表の数字は、サイトの数を表しています。 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 100％の死亡率が発生したサイトの数がサイトのタイプに基づいて重要かどうかを知りたいです。2 x 3カイ2乗を実行すると、重要な結果が得られます。実行できる事後的なペアワイズ比較はありますか、または実際にロジスティックANOVAまたは二項分布の回帰を使用する必要がありますか？ありがとう！

9 logistic multiple-comparisons chi-squared r text-mining clustering classification feature-selection unsupervised-learning time-series references mode hypothesis-testing confidence-interval bootstrap normal-distribution order-statistics correlation statistical-significance spss bayesian beta-binomial

1

ベータ分布以外の[0,1]のどの分布が二項分布との良い化合物を形成しますか？

ベータ以外のどの分布xについて、x二項分布はいいですか？ベータ分布と二項分布は共役であることが有名ですが、他の非共役分布で比較的単純な複合pmfsが得られるかどうか知りたいです。いい意味では、pmfは数値積分に頼らずに計算するのがいいということです。複合分布からのサンプリングの容易さについては言及していません。

8 beta-binomial

1

ベータ二項分布の限界は二項式です

ベータ二項分布と二項分布の関係を理解しようとしています。より具体的には、私はベータ二項分布の限界を、p = a /（a + b ）p=a/(a+b)p=a/(a+b) 二項式である a + ba+ba+b無限に行きます。表示に問題があります。役立つヒントがあれば非常に役立ちます。このため、私はの限界を取るべきだと思いますベータ版（a 、b ）beta(a,b)\text{beta}(a,b) として機能する a + ba+ba+b無限に行きます。これは存在しますか？以下の回答によると、これは存在しません。また、MGFは厄介なため、使用をためらっています。

7 distributions beta-distribution beta-binomial

1

二項分布の平均を推定するときにpの不確実性を考慮する

パラメータ付きの二項分布があります NNN そして ppp、そして私の分布の平均の推定値はNです×p×p\times p。の値NNN そして ppp ガウス近似を使用して σσ\sigma 平均の (n×p(1−p)−−−−−−−−−−−√(n×p(1−p)\sqrt{(n\times p (1-p)}。問題は、私がすでに推定していることですppp、そう ppp 実際には、平均がわかっているガウス分布であり、 σσ\sigma。私の目標は、二項分布の平均の信頼区間を見つけることですが、どのようにしてppp 考慮に入れますか？

7 confidence-interval binomial beta-binomial credible-interval

1

ベータ二項cdf、sf、ppfで使用する一般化された超幾何関数を実装する方法は？

私はscipy.stats._distn_infrastructure.rv_discreteそのPMFがベータ二項分布のサブクラスを書いています P(X=k∣N,α,β)(Nk)B(k+α,N−k+β)B(α,β),P(X=k∣N,α,β)(Nk)B(k+α,N−k+β)B(α,β),P(X=k \mid N, \alpha, \beta){N \choose k} \frac{\mathrm{B}(k+\alpha,N-k+\beta)}{\mathrm{B}(\alpha,\beta)}, ここで、BB\mathrm{B}はベータ関数です。私のCDFとSF（生存関数、1-CDFに相当）の現在の実装は不正確です。私が採用した戦略は、ベータ成分に関して二項累積分布関数の期待値を計算します。 PBB(X≤k∣N,α,β)=Ep[PBinom(X≤k∣N,p)],PBB(X≤k∣N,α,β)=Ep[PBinom(X≤k∣N,p)],P_{BB}(X \le k \mid N, \alpha, \beta) = E_p\left[P_{Binom}(X \le k \mid N, p)\right], where p∼Beta(α,β)p∼Beta(α,β)p \sim \mathrm{Beta}(\alpha, \beta)。私scipy.stats.beta.expectは、本来はベクトル化されていないメソッドを使用してこれを実現しています（floatまたは0d配列以外ではクラッシュします）。 PPFはさらに悪くなる-それは、ブルートフォース整数をループだk=0,…,Nk=0,…,Nk=0, \ldots, Nよう P(X≤k∣N,α,β)≤q.P(X≤k∣N,α,β)≤q.P(X\le k \mid N, \alpha, \beta) \le q. ウィキペディアによると、ベータ二項分布の生存関数は P(X>k∣N,α,β)=B(β+n−k−1,α+k+1)3F2(a,b;k)B(α,β)B(n−k,k+2)(n+1),P(X>k∣N,α,β)=B(β+n−k−1,α+k+1)3F2(a,b;k)B(α,β)B(n−k,k+2)(n+1),P(X > k \mid N, \alpha, \beta) = \frac{\mathrm{B}(\beta+n-k-1,\alpha+k+1)_3F_2(\boldsymbol{a},\boldsymbol{b};k)} …

7 distributions python cdf beta-binomial

タグ付けされた質問 「beta-binomial」

タグ付けされた質問「beta-binomial」