タグ付けされた質問 「binomial」

二項分布は、固定数の独立した「試行」における「成功」の頻度を示します。このタグは、二項分布される可能性のあるデータに関する質問や、この分布の理論に関する質問に使用します。

3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

11
Brain Teaser:pr(head)= pのバイアスされたコインを使用して、等しい確率で7つの整数を生成する方法
これは、Glassdoorで見つけた質問です。コインを使用して、等しい確率で7つの整数をどのように生成しますか?Pr(Head)=p∈(0,1)Pr(Head)=p∈(0,1)\mathbb{Pr}(\text{Head}) = p\in(0,1) 基本的に、あなたは公平かもしれないし、そうでないかもしれないコインを持っています、そしてこれはあなたが持っている唯一の乱数生成プロセスであるので、これらの各整数を得る確率が1から7までの整数を出力する乱数ジェネレータを考え出します1/7です。 データ生成プロセスの効率が重要です。


3
対数変換された予測子および/または応答の解釈
従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのか​​と思います。 の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

4
二項確率変数のサンプルの平均の標準誤差
2つの結果を持つことができる実験を実行しており、2つの結果の基礎となる「真の」分布は、パラメーターnnnと持つ二項分布であると仮定していますppp:Binomial(n,p)Binomial(n,p){\rm Binomial}(n, p)。 私は標準誤差を計算することができ、の分散の形から BINOMIL(N、P):σ2X=NのP、Q、Q=1-P。だから、σX=√SEX=σXn√SEX=σXnSE_X = \frac{\sigma_X}{\sqrt{n}}Binomial(n,p)Binomial(n,p){\rm Binomial}(n, p)σ2X=npqσX2=npq \sigma^{2}_{X} = npqq=1−pq=1−pq = 1-p。標準エラーの場合、SEX= √が得られますσX=npq−−−√σX=npq\sigma_X=\sqrt{npq}、しかしどこかでSEX= √を見たSEX=pq−−√SEX=pqSE_X=\sqrt{pq}。私は何を間違えましたか?SEX=pqn−−√SEX=pqnSE_X = \sqrt{\frac{pq}{n}}

2
ベルヌーイサンプリングの信頼区間
ベルヌーイ確率変数ランダムサンプルがありますで、はiidrvで、で、は不明なパラメーターです。X i P (X i = 1 )= p pX1...XNX1...XNX_1 ... X_NXiXiX_iP(Xi=1)=pP(Xi=1)=pP(X_i = 1) = pppp 明らかに、一つの推定値を見つけることができ:。P:= (X 1 + ⋯ + X N)/ Npppp^:=(X1+⋯+XN)/Np^:=(X1+⋯+XN)/N\hat{p}:=(X_1+\dots+X_N)/N 私の質問は、信頼区間をどのように構築できますか?ppp

9
ベルヌーイ確率変数の合計を効率的にモデル化するにはどうすればよいですか?
YYYXiXiX_ipipip_iY=∑XiY=∑XiY=\sum X_iPr(Xi=1)=piPr(Xi=1)=pi\Pr(X_i=1)=p_iPr(Xi=0)=1−piPr(Xi=0)=1−pi\Pr(X_i=0)=1-p_i Pr(Y&lt;=k)Pr(Y&lt;=k)\Pr(Y<=k)(kkkが指定されている)などのクエリにすばやく応答することに興味があります。 現在、私はそのような質問に答えるためにランダムシミュレーションを使用しています。p_iに従って各X_iをランダムに描画XiXiX_iし、すべてのX_i値を合計してY 'を取得します。このプロセスを数千回繰り返し、時間の小数部分\ Pr(Y '\ leq k)を返します。pipip_iXiXiX_iY′Y′Y'Pr(Y′≤k)Pr(Y′≤k)\Pr(Y'\leq k) 明らかに、これは完全に正確ではありません(ただし、シミュレーションの数が増えると精度は大幅に向上します)。また、使用シミュレーションを回避するのに十分な分布に関するデータがあるようです。正確な確率\ Pr(Y \ leq k)を取得する合理的な方法を考えることができますPr(Y≤k)Pr(Y≤k)\Pr(Y\leq k)か? PS PerlとRを使用しています。 編集 回答に続いて、私はいくつかの説明が必要かもしれないと思った。問題の設定について簡単に説明します。円周cとnそれにマッピングされた一連の範囲を持つ円形ゲノムが与えられます。たとえば、c=3*10^9およびranges={[100,200],[50,1000],[3*10^9-1,1000],...}。すべての範囲が閉じていることに注意してください(両端が含まれます)。また、整数(全体の単位)のみを扱うことに注意してください。 特定のnマッピング範囲で覆われている円上の領域を探しています。したがってx、円上の与えられた長さの範囲がカバーされているかどうかをテストするために、n範囲がランダムにマッピングされるという仮説をテストします。マッピングされた長さの範囲が指定された長さの範囲をq&gt;x完全にカバーする確率xは(q-x)/cです。この確率cは、大きい場合や小さい場合に非常に小さくなりますq。私が興味を持っているのは、nをカバーする範囲の数(範囲外)xです。これがY形成される方法です。 帰無仮説と片側の代替(アンダーカバー)をテストします。また、複数の仮説(異なるx長さ)をテストしていることにも注意してください。これを必ず修正してください。

2
二項回帰のRの出力の解釈
私は二項データテストでこれについては非常に新しいですが、1つを行う必要があり、結果をどのように解釈するかがわかりません。応答変数であるy変数は二項であり、説明因子は連続的です。これは、結果を要約するときに得たものです: glm(formula = leaves.presence ~ Area, family = binomial, data = n) Deviance Residuals: Min 1Q Median 3Q Max -1.213 -1.044 -1.023 1.312 1.344 Coefficients: Estimate Std. Error z value Pr(&gt;|z|) (Intercept) -0.3877697 0.0282178 -13.742 &lt; 2e-16 *** leaves.presence 0.0008166 0.0002472 3.303 0.000956 *** --- Signif. codes: 0 ‘***’ 0.001 …

6
2つの二項分布が互いに統計的に異なるかどうかをテストします
データには3つのグループがあり、それぞれに二項分布があります(つまり、各グループには成功または失敗の要素があります)。成功の予測確率はありませんが、真の成功率の近似として、それぞれの成功率にのみ頼ることができます。私はこの質問を見つけましたが、これは近いですが、このシナリオに正確に対処していないようです。 テストを簡略化するために、2つのグループがあるとしましょう(このベースケースから3つのグループを拡張できます)。 グループ1の試行: = 2455n1n1n_1 グループ2試験: = 2730n2n2n_2 グループ1の成功:k1k1k_1 = 1556 グループ2の成功:k2k2k_2 = 1671 予想される成功確率はありません。サンプルから知っていることだけです。したがって、2つのグループの成功率は次のとおりです。 グループ1の成功率:p1p1p_1 = 1556/2455 = 63.4% グループ2の成功率: p2p2p_2 = 1671/2730 = 61.2% 各サンプルの成功率はかなり近いです。しかし、私のサンプルサイズも非常に大きいです。二項分布のC​​DFを調べて、最初の分布との違いを確認すると(最初はヌルテストであると仮定します)、2番目の分布が達成される可能性は非常に小さくなります。 Excelの場合: 1-BINOM.DIST(1556,2455,61.2%、TRUE)= 0.012 ただし、これは最初の結果の分散を考慮せず、最初の結果がテスト確率であると見なします。 これらの2つのデータサンプルが実際に互いに統計的に異なるかどうかをテストするより良い方法はありますか?



11
8個のランダムビットを(0、255)で均一に生成するのはなぜですか?
8つのランダムビット(0または1)を生成し、それらを連結して8ビット数を形成しています。単純なPythonシミュレーションでは、離散セット[0、255]で均一な分布が得られます。 これが私の頭の中で理にかなっている理由を正当化しようとしています。これを8枚のコインのフリッピングと比較した場合、期待値は4頭/ 4尾のどこかにありませんか?だから私にとって、私の結果は範囲の中央のスパイクを反映するはずです。言い換えると、8個のゼロまたは8個のシーケンスが、4と4、または5と3などのシーケンスと同じくらい可能性が高いように見えるのはなぜですか?ここで何が欠けていますか?

3
ロジスティック回帰の95%信頼区間を手動で計算することと、Rでconfint()関数を使用することに違いがあるのはなぜですか?
皆さん、私は説明できない奇妙なことに気づきました、できますか?要約すると、ロジスティック回帰モデルで信頼区間を計算する手動のアプローチとR関数confint()は異なる結果をもたらします。 Hosmer&LemeshowのApplied Logistic Regression(第2版)を行ってきました。第3章には、オッズ比と95%の信頼区間を計算する例があります。Rを使用すると、モデルを簡単に再現できます。 Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(&gt;|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

2
ロジスティック回帰:ベルヌーイ対二項応答変数
次の二項応答と、予測子としてとを使用してロジスティック回帰を実行します。 X1X1X_1X2X2X_2 次の形式でベルヌーイ応答と同じデータを提示できます。 これら2つのデータセットのロジスティック回帰出力はほとんど同じです。逸脱残差とAICは異なります。(ヌル偏差と残留偏差の差は、両方の場合で同じです-0.228。) 以下は、Rからの回帰出力です。データセットはbinom.dataおよびbern.dataと呼ばれます。 これが二項出力です。 Call: glm(formula = cbind(Successes, Trials - Successes) ~ X1 + X2, family = binomial, data = binom.data) Deviance Residuals: [1] 0 0 0 Coefficients: Estimate Std. Error z value Pr(&gt;|z|) (Intercept) -2.9649 21.6072 -0.137 0.891 X1Yes -0.1897 2.5290 -0.075 0.940 X2 0.3596 1.9094 0.188 …

4
二項データのANOVA
実験データセットを分析しています。データは、治療タイプと二項式の結果のペアベクトルで構成されます。 Treatment Outcome A 1 B 0 C 0 D 1 A 0 ... 結果列の1は成功を示し、0は失敗を示します。治療が結果を大きく変えるかどうかを知りたいです。4回の異なる治療があり、各実験は何度も繰り返されます(各治療で2000回)。 私の質問は、ANOVAを使用してバイナリの結果を分析できますか?または、二項データをチェックするためにカイ二乗検定を使用する必要がありますか?カイ2乗は割合が均等に分割されると仮定しているようですが、そうではありません。別のアイデアは、各治療の成功と失敗の割合を使用してデータを要約し、次に割合テストを使用することです。 この種の二項式の成功/失敗実験に意味のあるテストについてのあなたの推奨を聞きたいです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.