タグ付けされた質問 「binomial」

二項分布は、固定数の独立した「試行」における「成功」の頻度を示します。このタグは、二項分布される可能性のあるデータに関する質問や、この分布の理論に関する質問に使用します。

2
従属データのベルヌーイ確率変数の合計をモデル化する方法は?
私はこのようなほぼ同じ質問があります: ベルヌーイ確率変数の合計を効率的にモデル化するにはどうすればよいですか? ただし、設定はかなり異なります。 S=∑i=1,NXiS=∑i=1,NXiS=\sum_{i=1,N}{X_i}、、〜20、〜0.1P(Xi=1)=piP(Xi=1)=piP(X_{i}=1)=p_iNNNpipip_i ベルヌーイ確率変数の結果のデータがあります:、Xi,jXi,jX_{i,j}Sj=∑i=1,NXi,jSj=∑i=1,NXi,jS_j=\sum_{i=1,N}{X_{i,j}} 最尤推定でを推定した場合(およびを取得した場合)、がはるかに大きいことが他の基準で期待される:pipip_ip^MLEip^iMLE\hat p^{MLE}_iP^{S=3}(p^MLEi)P^{S=3}(p^iMLE)\hat P\{S=3\} (\hat p^{MLE}_i)P^{S=3}(p^MLEi)−P^expected{S=3}≈0.05P^{S=3}(p^iMLE)−P^expected{S=3}≈0.05\hat P\{S=3\} (\hat p^{MLE}_i) - \hat P^{expected} \{S=3\}\approx 0.05 したがって、とは独立したものとして扱うことができません(依存関係が小さいため)。XiXiX_{i}XjXjX_{j} (j&gt;k)(j&gt;k)(j>k) これらのようないくつかの制約があります:および(既知)、これは推定に役立つはずです。pi+1≥pipi+1≥pip_{i+1} \ge p_i∑s≤2P^{S=s}=A∑s≤2P^{S=s}=A\sum_{s \le 2}\hat P\{S=s\}=AP{S}P{S}P\{S\} この場合、ベルヌーイ確率変数の合計をモデル化するにはどうすればよいでしょうか? この課題を解決するのに役立つと思われる文献はどれですか。 更新しました さらにいくつかのアイデアがあります: (1)間の未知の依存関係は、連続して1回以上成功した後に始まると想定できます。したがって、場合、およびます。XiXi{X_i}∑i=1,KXi&gt;0∑i=1,KXi&gt;0\sum_{i=1,K}{X_i} > 0pK+1→p′K+1pK+1→pK+1′p_{K+1} \to p'_{K+1}p′K+1&lt;pK+1pK+1′&lt;pK+1p'_{K+1} < p_{K+1} (2)MLEを使用するには、問題が最も少ないモデルが必要です。ここにバリアントがあります: P{X1,...,Xk}=(1−p1)...(1−pk)P{X1,...,Xk}=(1−p1)...(1−pk)P\{X_1,...,X_k\}= (1-p_1) ... (1-p_k)場合任意のkのための ifおよび、および任意のkに対して。∑i=1,kXi=0∑i=1,kXi=0\sum_{i=1,k}{X_i} = 0P{X1,...,Xk,Xk+1,...,XN}=(1−p1)...pkP′{Xk+1,...,XN}P{X1,...,Xk,Xk+1,...,XN}=(1−p1)...pkP′{Xk+1,...,XN}P\{X_1,...,X_k,X_{k+1},...,X_N\}= (1-p_1) ... p_k P'\{X_{k+1},...,X_N\}∑i=1,k−1Xi=0∑i=1,k−1Xi=0\sum_{i=1,k-1}{X_i} = …

2
データのROC曲線を計算する
そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線(FPR対TPR OR FAR対FRR)を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

3
二項分布のサンプル平均とサンプル分散の独立性
ましょ。E [ X ] = n pおよびV a r [ X ] = n p (1 - p )であることがわかります。これは、その意味するものではないサンプルの平均ˉ xとし、標本分散S 2がある依存バツ〜B I N O M I L(N 、P )X∼Binomial(n,p)X\sim\mathrm{Binomial}(n,p)E [X] = n pE[X]=np\mathrm{E}[X]=npV a r [X] = n p (1 − p )Var[X]=np(1−p)\mathrm{Var}[X]=np(1-p)バツ¯x¯\bar xs2s2s^2お互いの?それとも、単に母集団分散が母集団平均の関数として記述できることを意味するのでしょうか?

4
二項分布の正規近似:なぜnp> 5?
二項分布の正規近似について説明しているほぼすべての教科書は、および場合に近似を使用できるという経験則に言及しています。一部の書籍では、代わりにをます。同じ定数は、 -testでセルをマージするタイミングの説明によく現れます。私が見つけたテキストはどれも、この経験則の正当化または参照を提供していません。N (1 - P )≥ 5 N P (1 - P )≥ 5 5 χ 2np≥5np≥5np\geq5n(1−p)≥5n(1−p)≥5n(1-p)\geq 5np(1−p)≥5np(1−p)≥5np(1-p)\geq 5555χ2χ2\chi^2 この定数5はどこから来たのですか?なぜ4または6または10ではないのですか?この経験則はもともとどこに導入されたのですか?

1
二項モデル(lme4)の変量効果の推定
ランダムロジットでベルヌーイ試験をシミュレートしていますグループとの間で、私と対応するモデルフィットパッケージ:ロジットθ 〜N(ロジットθ0、12)logitθ∼N(logitθ0,12)\text{logit}\, \theta \sim {\cal N}(\text{logit}\, \theta_0, 1^2)lme4 library(lme4) library(data.table) I &lt;- 30 # number of groups J &lt;- 10 # number of Bernoulli trials within each group logit &lt;- function(p) log(p)-log(1-p) expit &lt;- function(x) exp(x)/(1+exp(x)) theta0 &lt;- 0.7 ddd &lt;- data.table(subject=factor(1:I),logittheta=rnorm(I, logit(theta0)))[, list(result=rbinom(J, 1, expit(logittheta))), by=subject] fit &lt;- glmer(result~(1|subject), …

1
効果コーディングを使用した一般化線形モデルのパラメーターにはどのような解釈がありますか?
library(lme4) out &lt;- glmer(cbind(incidence, size - incidence) ~ period + (1 | herd), data = cbpp, family = binomial, contrasts = list(period = "contr.sum")) summary(out) Fixed effects: Estimate Std. Error z value Pr(&gt;|z|) (Intercept) -2.32337 0.22129 -10.499 &lt; 2e-16 *** period1 0.92498 0.18330 5.046 4.51e-07 *** period2 -0.06698 0.22845 -0.293 …

4
サンプル比率の分散はnとともに減少しますが、カウントの分散はnとともに増加します-なぜですか?
これで直感的なブロックができました。二項問題の場合、カウントの標準偏差はです。逆に、サンプル比率の標準偏差は増加とともに減少し、ます。nで除算することはできますが、標準偏差が反対方向に移動する理由がわかりません。n p (1 − p )−−−−−−−−√np(1−p)\sqrt{np(1-p)}んnn np (1 − p )ん−−−−−√p(1−p)n\sqrt{\frac{p(1-p)}{n}}んnn


1
二項応答によるロジスティック回帰の結果の予測区間
ロジスティック回帰モデルがあるとします。 P(y=1|x)log(p1−p)=p=βxP(y=1|x)=plog⁡(p1−p)=βx\begin{align} P(y=1\vert\mathbf{x}) &= p \\ \log\left(\frac{p}{1-p}\right) &= \boldsymbol{\beta}\mathbf{x} \end{align} サイズNのランダムサンプルD={X,y}D={X,y}D=\{\mathbf{X},\mathbf{y}\}を指定すると、\ boldsymbol {\ beta}の信頼区間と、それに対応する特定の値\を指定したpの予測区間を計算できます予測ベクトルのmathbf {x} ^ *。これはすべて非常に標準的で詳細なものです(たとえば、こちら)。NNNββ\boldsymbol{\beta}pppx∗x∗\mathbf{x}^* 代わりに、\ mathbf {x} ^ *を指定して、yの予測区間に興味があると仮定します。もちろん、yは値0と1のみをとり、その間に値をとることができないため、yの単一の実現に対する予測区間を計算することはまったく意味がありません。ただし、\ mathbf {x} ^ *の同じ固定値に対してyのm実現を考慮すると 、これは二項確率変数の予測区間を計算する問題に似ています(ただし同一ではありません)。これは、基本的にこの回答へのコメントでGlen_bによって説明された同じ状況ですyyyx∗x∗\mathbf{x}^*yyyyyymmmyyyx∗x∗\mathbf{x}^*。この質問には、「ノンパラメトリックブートストラップを使用する」というささいな質問とは別に、答えはありますか?

2
エレクトロニクス企業は、95%の時間正常に動作するデバイスを製造しています
エレクトロニクス企業は、95%の時間正常に動作するデバイスを製造しています。新しいデバイスは400の箱で出荷されます。会社は、箱ごとにk以上のデバイスが機能することを保証したいと考えています。ボックスの少なくとも95%が保証を満たすための最大のkは何ですか? 試行:この問題には中央極限定理を使用する必要があることはわかっていますが、各ボックスには400個のデバイスがあり、ボックスの数は不明であるため、セットアップにどのNが必要かはわかりません。誰かがセットアップのヒントを教えてくれませんか?ありがとう!

2
Rはこの二項回帰のp値をどのように計算しますか?
次の二項回帰を考えます。 # Create some data set.seed(10) n &lt;- 500 x &lt;- runif(n,0,100) y &lt;- x + rnorm(n,sd=100) &lt; 0 # Fit a binomial regression model model &lt;- glm(y ~ x, family="binomial") summary(model) summary関数は、p値を返します1.03e-05。をanova.glm使用する場合、p値の計算にどの方法を使用するかに関係なく、p値が少し極端になります。 anova(model, test="Rao") # p.value = 7.5e-6 anova(model, test="LRT") # p.value = 6.3e-6 anova(model, test="Chisq") # p.value = …

1
分散=とベータ回帰と準GLMの違いは何である
まず、背景を説明しましょう。最後に質問をまとめます。 その平均値によってパラメータベータ分布、及びφは、持っているヴァー(Y )= V (μ )/(φ + 1 )、V (μ )= μ (1 - μは)分散関数です。μμ\muϕϕ\phiVar(Y)=V(μ)/(ϕ+1)Var⁡(Y)=V⁡(μ)/(ϕ+1)\operatorname{Var}(Y) = \operatorname{V}(\mu)/(\phi+1)V(μ)=μ(1−μ)V⁡(μ)=μ(1−μ)\operatorname{V}(\mu) = \mu(1-\mu) ベータ回帰(例えば、Rにbetaregパッケージを使用)において、回帰は、ベータ分布の誤差を想定し、固定効果との値を推定。ϕϕ\phi GLM回帰では、の分散機能と「準」分布を定義することが可能である。したがって、ここでのモデルは、ベータと同じ分散関数を持つエラーを想定しています。次に、回帰は固定効果と準分布の「分散」を推定します。μ(1−μ)μ(1−μ)\mu(1-\mu) 重要なものが欠けているかもしれませんが、これらの2つの方法は本質的に同じで、おそらく推定方法が異なるだけのようです。 Iは間隔である「類似性」と呼ばれるDV、上退縮、Rの両方の方法を試みた:(0,1)(0,1)(0,1) Call: betareg(formula = Similarity ~ N + NK + Step_ent, data = TapData, link = "logit") Coefficients (mean model with logit link): Estimate Std. Error z value …

1
二項分布のpを推定する際の分散
二項分布から派生したpの分散を計算するにはどうすればよいですか?n枚のコインを裏返してk枚の頭を獲得したとします。pをk / nとして推定できますが、その推定の分散をどのように計算できますか? 試行回数が異なるポイント間を比較するときに比率の推定値の変動を制御できるように、これに興味があります。nが大きい場合のpの推定値の方が確実なので、推定値の信頼性をモデル化できるようにしたいと思います。 前もって感謝します! 例: 40/100。pのMLEは0.4ですが、pの分散は何ですか? 4/10。MLEは0.4のままですが、推定値の信頼性が低くなるため、pの分散が大きくなるはずです。

1
二項分布は、バイナリ選挙をモデル化できるすべての「合理的な」分布の中で可能な限り最小の分散を持っていますか?
人が二者択一をする選挙を想像してみてください。彼らはAに投票するか反対に投票します。その結果、人がAに投票するため、Aの結果はます。nnnmmmp=m/np=m/np=m/n これらの選挙をモデル化する場合、各人が確率で独立してAに投票し、投票の二項分布につながると想定でき。この分布には、平均と分散ます。pppvotes for A∼Binom(n,p).votes for A∼Binom(n,p).\text{votes for A}\sim\mathsf{Binom}(n,p).m=npm=npm=npnp(1−p)np(1−p)np(1-p) 他の仮定も可能です。たとえば、確率自体が何らかの分布(ベータなど)からの確率変数であると想定できます。これはA.のための投票のベータ二項分布につながることができますまたは私はのグループでその人の投票と仮定することができの各グループ、人々が同じ選択を行い、それが確率でAである。これにより、分散がより大きい二項分布が得られます。これらすべてのケースで、結果の分布の分散は、最も単純な二項方式の場合よりも大きくなります。pppkkkkkkppp 二項分布の分散が最小であると主張できますか?言い換えると、この主張は、たとえば可能な分布にいくつかの合理的な条件を指定することによって、どういうわけか正確にすることができますか?これらの条件は何でしょうか? それとも、分散の少ない合理的な分布があるのでしょうか? 私がすることができ、すべての例とき、低分散を想像して人々は、彼らが投票する方法について事前に合意し、そう本当にランダム変数ではなく、一定の数の。その場合、分散はゼロになります。あるいは、ほとんどすべての人が同意したが、同意しなかった人もいるため、周りにわずかな差異がある可能性が。しかし、これは不正行為のように感じます。各人が何らかの意味でランダムに投票する場合など、事前の準備なしで二項よりも小さい分散を持つことができますか?nnnvotes for Avotes for A\text{votes for A}mmmmmm

1
与えられた相関関係を持つ二項確率変数の生成
独立した二項確率変数を生成する方法を知っているとします。どのように生成することができる2つのランダム変数とようにXXXYYYX∼Bin(8,23),Y∼Bin(18,23) and Corr(X,Y)=0.5X∼Bin(8,23),Y∼Bin(18,23) and Corr(X,Y)=0.5X\sim \text{Bin}(8,\dfrac{2}{3}),\quad Y\sim \text{Bin}(18,\dfrac{2}{3})\ \text{ and }\ \text{Corr}(X,Y)=0.5 とは独立しているという事実を使おうと考えましたが、が二項分布であるため、この方法は使用できません。これが機能した場合、2つの二項確率変数、たとえばと、とつまり、、ペア。しかし、は二項分布ではないためこれを行うことはできません。Y - ρ X ρ = C O R R (X 、Y )X - ρ Y A B X = A Y - ρ X = B Y = B + ρ A (X 、Y )Y - ρ …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.