タグ付けされた質問 「beta-distribution」

間隔で定義された一変量分布の2パラメーターファミリー [0,1]

4
勾配ブースティングマシンの精度は、反復回数が増えると低下します
caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。 小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 


3
ベータ確率変数の逆正規CDFはどの分布に従うのですか?
以下を定義するとします: X∼Beta(α,β)X∼Beta(α,β)X\sim\mbox{Beta}(\alpha,\beta) Y∼Φ−1(X)Y∼Φ−1(X)Y\sim \Phi^{-1}(X) ここで、は標準正規分布のCDFの逆数です。Φ−1Φ−1\Phi^{-1} 私の質問は次のとおりです続く単純な分布はありますか、それともを近似できますか?YYYYYYシミュレーション結果(以下に示す)に基づいて、およびが高い場合にが正規分布に収束するという強い疑念があるので、私は尋ねていますが、なぜ数学的にそうなるのかわかりません。(もちろん、場合、は均一で、Yは標準の法線になりますが、より高い値に当てはまるのはなぜですか?)YYYαα\alphaββ\betaα=1;β=1α=1;β=1\alpha=1;\beta=1XXXYYY これが法線に収束する場合、αα\alphaとに関して、その法線のパラメーターはどうなりますββ\betaか?(私は平均が可能だろうと期待しておりΦ−1(αα+β)Φ−1(αα+β)\Phi^{-1}(\frac{\alpha}{\alpha+\beta})それはモードの変換なので、標準偏差はわかりません)。 (別の言い方をすれば、これは「Φ(Norm(μ,σ))Φ(Norm(μ,σ))\Phi(\mbox{Norm}(\mu, \sigma))はベータ分布に収束し、μμ\muとある方向についてはσσ\sigma」と尋ねることができますか?それが答えやすいかどうかわかりません)。 シミュレーション結果 ここで、結果が正常であると疑う理由を示します(数学でバックアップできないため)。シミュレーションはYYY、qnormとでRで実行できますrnorm。たとえば、高いパラメーターα=3000α=3000\alpha=3000および選択する場合β=7000β=7000\beta=7000: hist(qnorm(rbeta(5000, 3000, 7000))) これは正常に見えqqnorm、Shapiro-Wilk検定(正規性は帰無仮説)も同様に示唆します。 qqnorm(qnorm(rbeta(5000, 3000, 7000))) shapiro.test(qnorm(rbeta(5000, 3000, 7000))) #> #> Shapiro-Wilk normality test #> #> data: qnorm(rbeta(5000, 3000, 7000)) #> W = 0.99954, p-value = 0.2838 正常性をもう少し詳しく調べるために、から5,000の値をシミュレートするたびに2,000回のシミュレーションYYYを実行し、それからテストを実行して正常と比較します。(5Kの値を選択したのはshapiro.test、それが最大の処理能力であり、標準からの逸脱を検出する能力を最大化するためです)。 分布が本当に正規である場合、p値は均一であると予想されます(nullがtrueであるため)。それらは確かに均一に近く、分布が正規に非常に近いことを示唆しています。 hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 3000, 7000)))$p.value)) いくつかの実験では、とβが高いほど、分布が正規に近くなることが示されています(たとえば、正規からかなり離れていますが、試してみてください。αα\alphaββ\betarbeta(5000, 3, 7)hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 30, …

1
Scipyのベータ分布フィッティング
ウィキペディアによると、ベータ確率分布には、および 2つの形状パラメーターがあります。αα\alphaββ\beta scipy.stats.beta.fit(x)Python を呼び出すと、xの範囲の数字の束があり、4つの値が返されます。これは奇妙に思えます。[ 0 、1 ][0、1][0,1] グーグルで検索した結果、戻り値の1つは 'location'でなければならないことがわかりましたscipy.stats.beta.fit(x, floc=0)。 4番目の変数が何であるか、そして最初の2つがと場合、誰もが知っていますか?αα\alphaββ\beta

3
ベータ版の配布元はどこですか?
私は確信しているとして、誰もがここでは、すでにベータ分布のPDFを知っているで与えられますX∼B(a,b)X∼B(a,b)X \sim B(a,b) f(x)=1B(a,b)xa−1(1−x)b−1f(x)=1B(a,b)xa−1(1−x)b−1f(x) = \frac{1}{B(a,b)}x^{a-1}(1-x)^{b-1} この式の起源を説明するために、あちこちで狩りをしてきましたが、見つけることができません。私がベータ版の分布で見つけたすべての記事は、この公式を提供し、その形状のいくつかを説明し、その後、その瞬間とそこから議論にまっすぐ進むようです。 私が導き出して説明できない数式を使うのは好きではありません。他の分布(例:ガンマまたは二項分布)については、学習して使用できる明確な導出があります。しかし、ベータ版ディストリビューションについては、そのようなものは見つかりません。 だから私の質問は次のとおりです。この式の起源は何ですか?最初に開発されたどのようなコンテキストでも、どのように第一原理から派生させることができますか? [明確にするために、ベイジアン統計でベータ分布を使用する方法、または実際にそれが直感的に意味するものについては質問していません(野球の例を読みました)。PDFの導出方法を知りたいだけです。同様のことを尋ねる以前の質問がありましたが、問題に対処しなかった別の質問の重複としてマークされていたので(間違っていると思います)、ここでヘルプを見つけることができませんでした。 EDIT 2017-05-06:質問をありがとうございます。私が望むものについての良い説明は、私のコースインストラクターにこれを尋ねたときに得た答えの1つから来ると思います: 「人々はn個の合計をsqrt(n)で割った限界として通常の密度を導き出すことができると思います。また、一定の速度で発生するイベントの考えからポアソン密度を導き出すことができます。ベータ密度については、密度から独立して、論理的に何がベータ分布になるのかをある程度理解する必要があります。」 したがって、コメント内の「ab initio」のアイデアは、おそらく私が探しているものに最も近いでしょう。私は数学者ではありませんが、導出できる数学を使用するのが最も快適だと感じています。起源が私には扱えないほど進んでいるなら、そうであるが、そうでないなら、私はそれらを理解したいと思う。

2
なぜこの分布は均一なのですか?
私たちはベイジアン統計検定を調査していますが、奇妙な(少なくとも私にとって)現象に出くわします。 次の場合を考えてみましょう。AまたはBのどちらの母集団のコンバージョン率が高いかを測定することに関心があります。健全性チェックでは、を設定しpA=pBpA=pBp_A = p_Bます。つまり、変換の確率は両方のグループで等しくなります。二項モデルを使用して人工データを生成しnA∼Binomial(N,pA)nA∼Binomial(N,pA)n_A \sim \text{Binomial}(N, p_A) 次に、ベイジアンベータ二項モデルを使用してを推定し、各変換レートの事後確率を取得します。たとえば、pA,pBpA,pBp_A, p_BPA∼Beta(1+nA,N−nA+1)PA∼Beta(1+nA,N−nA+1)P_A \sim \text{Beta}(1 + n_A, N - n_A +1 ) 検定統計量は経由でを計算して計算されます。S=P(PA>PB|N,nA,nB)S=P(PA>PB|N,nA,nB)S = P(P_A > P_B\; |\; N, n_A, n_B) 私が驚いたのは、場合、です。私は、サンプルサイズNが大きくなると、0.5を中心に0.5に収束し、さらには0.5に収束すると考えていました。 pA=pBpA=pBp_A = p_BS∼Uniform(0,1)S∼Uniform(0,1)S \sim \text{Uniform(0,1)}NNN 私の質問は、 p_A = p_BのときにS \ sim \ text {Uniform(0,1)} なのはなぜですか?S∼Uniform(0,1)S∼Uniform(0,1)S \sim \text{Uniform(0,1)}pA=pBpA=pBp_A = p_B デモするPythonコードを次に示します。 %pylab from …



3
Rでbetareg関数を使用して混合モデルを実装する方法は?
私は、個々のオタマジャクシの「活動レベル」を測定する比率で構成されるデータセットを持っているため、値は0と1の間でバインドされます。このデータは、特定の時間間隔(移動の場合は1動きがない場合は0)、平均して個人ごとに1つの値を作成します。私の主な固定効果は「密度レベル」でしょう。 私が直面している問題は、変量効果として含めたい因子変数「池」があることです。池の違いは気にしませんが、統計的に考慮します。池に関する重要な点の1つは、池が3つしかないことです。ランダムな効果を処理するときは、より多くの因子レベル(5+)を持つことが理想的であることを理解しています。 可能であれば、Rを使用して、betareg()またはbetamix()Rで混合モデルを実装する方法についてアドバイスをお願いします。Rのヘルプファイルを読んだことがあるのですが、通常、それらを理解するのは難しいと感じます(各引数パラメーターが実際に意味するところ)私自身のデータと、生態学的な意味での出力値の意味)ので、例を介してよりよく働く傾向があります。 関連するノートでは、代わりにglm()二項ファミリーの下でロジットリンクを使用して、この種のデータで変量効果を説明できるかどうか疑問に思っていました。

2
コイン投げのベータ分布
クルシュケのベイジアンの本は、コインを弾くためのベータ分布の使用に関して、 たとえば、コインに表側と裏側があるという知識以外に事前知識がない場合、これは以前にa = 1とb = 1に対応する1つの頭と1つの尾を観察したことと同じです。 なぜ1つの頭と1つの尾を見たことに等しい情報がないのですか?0頭と0尾は私にとってより自然に見えます。

3
周波数についてのベイズ推定における事前のベータ共役の理解
以下は、ボルスタッドの「ベイジアン統計入門」からの抜粋です。 そこにいるすべての専門家にとって、これは些細なことかもしれませんが、ある値の事後確率を計算するために統合を行う必要がないと著者が結論付けている方法はわかりません。比例であり、すべての項がどこから来たのか(尤度x事前)である2番目の式を理解しています。さらに、分子だけが直接比例しているので、分母を気にする必要はありません。しかし、3番目の方程式に移って、ベイズ規則の分母を忘れていませんか?どこに行ったの?そして、ガンマ関数によって計算された値、それは定数ではありませんか?定数はベイズの定理で相殺されませんか?ππ\pi


4
アルファとベータが大きいベータ分布の値を(数値的に)概算するにはどうすればよいですか?
大きな整数のアルファ、ベータ(たとえば、アルファ、ベータ> 1000000)のベータ分布の値を計算するための数値的に安定した方法はありますか? 実際、モードの周りに99%の信頼区間が必要なだけです。 追加:申し訳ありません。私の質問は、思ったほど明確に記述されていませんでした。私がやりたいのはこれです。コンベヤーベルト上の製品を検査する機械があります。これらの製品の一部は機械によって拒否されます。ここで、機械オペレーターが検査設定を変更した場合、彼/彼女の推定不合格率と、現在の推定値の信頼性についてのヒントを表示します。 したがって、実際の拒否率を確率変数Xとして扱い、拒否されたオブジェクトNと受け入れられたオブジェクトMの数に基づいてその確率変数の確率分布を計算すると思いました。Xの一様分布を仮定すると、これはNとMに依存するベータ分布。この分布をユーザーに直接表示するか、間隔[l、r]を見つけて、実際の棄却率がp> = 0.99でこの間隔に収まるように(shabbychefの用語を使用)、これを表示できます。間隔。M、Nが小さい場合(パラメーターの変更直後)、分布を直接計算し、間隔[l、r]を概算できます。ただし、M、Nが大きい場合、x ^ N *(1-x)^ Mは小さすぎて倍精度の浮動小数点数として表されるため、この単純なアプローチではアンダーフローエラーが発生します。 私の最善の策は、小さなM、Nに単純なベータ分布を使用し、M、Nがしきい値を超えるとすぐに同じ平均と分散の正規分布に切り替えることです。それは理にかなっていますか?

1
異常に制限された応答変数の回帰の処理
理論的には-225から+225の範囲にある応答変数をモデル化しようとしています。変数は、ゲームをプレイしたときに被験者が得た合計スコアです。理論的には、被験者が+225を獲得することは可能です。それにもかかわらず、スコアは被験者のアクションだけでなく別のアクションのアクションにも依存していたため、スコアの最大の誰もが125でした(これは、お互いにプレーしている2人のプレーヤーが両方ともスコアできる最高のスコアです)。これは非常に高い頻度で発生しました。最低スコアは+35でした。 この125の境界は、線形回帰で問題を引き起こしています。私が考えられる唯一のことは、応答を0と1の間になるように再スケーリングし、ベータ回帰を使用することです。+225をスコアリングできるので、これを行う場合、125がトップ境界(または変換後の1)であると本当に正当化できるかどうかはわかりません。さらに、これを行った場合、私の下部境界はどうなるでしょう35。 おかげで、 ジョナサン

1
従属カイ2乗確率変数の比率の分布
仮定X I〜N (0 、σ 2)独立しています。X=X1+X2+⋯+XnX=X1+X2+⋯+Xn X = X_1 + X_2+\cdots+ X_n Xi∼N(0,σ2)Xi∼N(0,σ2)X_i \sim N(0,\sigma^2) 私の質問は、ディストリビューションが何をするかです Z=X2X21+X22+⋯+X2nZ=X2X12+X22+⋯+Xn2 Z = \frac{X^2}{X_1^2 + X_2^2 + \cdots + X_n^2} フォローする?ここから、Wとして表される2つのカイ2乗確率変数の比率がはベータ分布に従います。これはWとYの間の独立性を前提としていると思います。私の場合でも、Zの分母にはXの2乗の成分が含まれています。WW+YWW+Y\frac{W}{W + Y}WWWYYYZZZXXX もベータ分布のバリエーションに従う必要があると思いますが、よくわかりません。この仮定が正しい場合、それを証明する方法がわかりません。ZZZ

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.