タグ付けされた質問 「binomial」

二項分布は、固定数の独立した「試行」における「成功」の頻度を示します。このタグは、二項分布される可能性のあるデータに関する質問や、この分布の理論に関する質問に使用します。

2
割合データの分布
データを使用してモデルを作成するために使用する正しい分布について質問があります。私は50区画の森林インベントリを実施しました。各区画は20m×50mです。プロットごとに、地面を遮る樹冠の割合を推定しました。各プロットには、キャノピーカバーの1つの値(パーセント)があります。割合の範囲は0〜0.95です。衛星画像と環境データに基づいた独立したX変数の行列を使用して、樹冠のカバー率(Y変数)のモデルを作成しています。 二項確率変数はn回の独立した試行の合計(つまり、ベルヌーイ確率変数)であるため、二項分布を使用する必要があるかどうかはわかりません。パーセンテージ値は試行の合計ではありません。実際の割合です。上限はありませんが、ガンマを使用する必要がありますか?パーセンテージを整数に変換し、ポアソンをカウントとして使用する必要がありますか?私はガウシアンに固執するべきですか?この方法でパーセンテージをモデル化しようとする文献や教科書には、多くの例はありません。ヒントや洞察は大歓迎です。 回答ありがとうございます。実際、ベータ版の配布はまさに私が必要としているものであり、この記事で徹底的に議論されています: Eskelson、BN、Madsen、L.、Hagar、JC、およびTemesgen、H(2011)。ベータ回帰とコピュラモデルを使用した河岸下層植生被覆の推定。Forest Science、57(3)、212-221。 これらの作者は、Cribari-NetoとZeileisによるRのbetaregパッケージを使用しています。 次の記事では、パーセンテージの範囲に真の0または1が含まれている場合に、ベータ分布の応答変数を変換する適切な方法について説明しています。 Smithson、M.、J。Verkuilen、2006。より良いレモン絞り器?ベータ分布の従属変数を使用した最尤回帰、Psychological Methods、11(1):54–71。

2
ランダムグラフの三角形の数の分布と分散
Erdos-Renyiランダムグラフ考えます。個の頂点のセットは、ラベル付けされます。エッジのセットは、ランダムプロセスによって作成されます。N V V = { 1 、2 、... 、N } EG=(V(n),E(p))G=(V(n),E(p))G=(V(n),E(p))nnnVVVV={1,2,…,n}V={1,2,…,n}V = \{1,2,\ldots,n\}EEE ましょう確率であり、各非順序対頂点()内のエッジとして生じる確率で独立他の対の、。0 &lt; p &lt; 1 { i 、j } i ≠ j E pppp0&lt;p&lt;10&lt;p&lt;10<p<1{i,j}{i,j}\{i,j\}i≠ji≠ji \neq jEEEppp の三角形は、、、がエッジであるような、異なる頂点の順序付けされていないトリプルです。。{ i 、j 、k } { i 、j } { j 、k } { k 、i } GGGG{i,j,k}{i,j,k}\{i,j,k\}{i,j}{i,j}\{i,j\}{j,k}{j,k}\{j,k\}{k,i}{k,i}\{k,i\}GGG 可能な三角形の最大数は(n3)(n3)\binom{n}{3}です。確率変数XXXをグラフG内の観測された三角形の数と定義しますGGG。 3つのリンクが同時に存在する確率はp3p3p^3です。したがって、Xの期待値はE(X)= \ …

1
なぜサンプル比率も二項分布を持たないのですか?
二項設定では、成功数を与える確率変数Xが二項分布されます。次に、サンプル比率をXとして計算できます。ここで、nはサンプルサイズです。私の教科書はそれを述べていますバツんバツん\frac{X}{n}んんn この比率には二項分布はありません ただし、X以降は単に二項分布の確率変数Xのスケーリングされたバージョンですが、二項分布も持つべきではありませんか?バツんバツん\frac{X}{n}バツバツX


1
比率と二項分布によるサンプルサイズの決定
私は、SokalとRohlfによるBiometry(3e)という本を使用して、いくつかの統計を学ぼうとしています。これは、確率、二項分布、およびポアソン分布をカバーする第5章の演習です。 この質問への答えを生成する式があることを理解しています: ただし、この式はこのテキストにはありません。確率、望ましい信頼レベル、および二項分布のみを知ってサンプルサイズを計算する方法を知りたいのですが。私が指摘できるこのトピックをカバーするリソースはありますか?私はGoogleを試しましたが、これまでに見たものには、この問題でアクセスできない情報が必要です。n=4(p–√−q√)2n=4(p−q)2 n = \frac 4 {( \sqrt{p} - \sqrt{q} )^2}

1
観測48で革新的な異常値をARIMAモデルに組み込むにはどうすればよいですか?
私はデータセットに取り組んでいます。いくつかのモデル識別手法を使用した後、私はARIMA(0,2,1)モデルを思いつきました。 R detectIOのパッケージの関数を使用して、元のデータセットの48回目の観測で革新的な外れ値(IO)TSAを検出しました。 この外れ値をモデルに組み込んで、予測に使用するにはどうすればよいですか?Rではそれから予測を行うことができない可能性があるため、ARIMAXモデルを使用したくありません。これを行う方法は他にありますか? これが私の値です。 VALUE &lt;- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

2
ロジット変換線形回帰、ロジスティック回帰、およびロジスティック混合モデルの違いは何ですか?
私には10人の生徒がいて、それぞれが20の数学の問題を解こうとしているとします。問題は(longdataで)正解または不正解としてスコアリングされ、各学生のパフォーマンスは(subjdataで)精度測定によって要約できます。以下のモデル1、2、および4は異なる結果を生成するように見えますが、同じことを行っていると理解しています。なぜ結果が異なるのですか?(参考のためにモデル3を含めました。) library(lme4) set.seed(1) nsubjs=10 nprobs=20 subjdata = data.frame('subj'=rep(1:nsubjs),'iq'=rep(seq(80,120,10),nsubjs/5)) longdata = subjdata[rep(seq_len(nrow(subjdata)), each=nprobs), ] longdata$correct = runif(nsubjs*nprobs)&lt;pnorm(longdata$iq/50-1.4) subjdata$acc = by(longdata$correct,longdata$subj,mean) model1 = lm(logit(acc)~iq,subjdata) model2 = glm(acc~iq,subjdata,family=gaussian(link='logit')) model3 = glm(acc~iq,subjdata,family=binomial(link='logit')) model4 = lmer(correct~iq+(1|subj),longdata,family=binomial(link='logit'))

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
クーポンコレクターの問題の一般的な形式の公式はありますか?
私はクーポンコレクターの問題に遭遇し、一般化の公式を考え出そうとしていました。 ある場合は個別のオブジェクトは、あなたが少なくとも収集するk個の任意の各コピーメートルそれらの(M ≤ N)、あなたが買うべきか、多くのランダムなオブジェクトの期待は何ですか?。通常のクーポンコレクターの問題には、m = Nおよびk = 1があります。NNNkkkmmmm≤Nm≤Nm \le Nm=Nm=Nm = Nk=1k=1k = 1 コレクションには12種類のレゴフィギュアがあります。10体(各10体)それぞれ3枚ずつ集めたい。ランダムに1つずつ購入できます。それらのそれぞれの3つのコピーを入手する前に、いくつ購入する予定ですか?


1
二項設定の下での成功の将来の割合の予測間隔
二項回帰を当てはめ、回帰係数の点推定と分散共分散行列を取得するとします。これにより、将来の実験で期待される成功の割合 CIを取得できますが、観測された割合のCIが必要です。シミュレーション(私はそれをしたくないと思う)やKrishnamoorthya et al(私の質問には完全には答えていません)へのリンクなど、いくつかの関連する回答が投稿されています。ppp 私の推論は次のとおりです:二項モデルだけを使用する場合、は(対応するWald CIを使用して)正規分布からサンプリングされると仮定する必要があるため、閉じた形式で観測された比率のCIを取得することは不可能です。がベータ分布からサンプリングされると仮定すると、成功数はベータ二項分布に従うため、状況ははるかに簡単です。推定ベータパラメーターおよび不確実性がないと仮定する必要があります。ppppppαα\alphaββ\beta 3つの質問があります。 1)理論的なもの:ベータパラメータのポイント推定値のみを使用しても問題ありませんか?多重線形回帰で将来の観測のためにCIを構築することを知っています Y=x′β+ϵ,ϵ∼N(0,σ2)Y=x′β+ϵ,ϵ∼N(0,σ2)Y = x'\beta + \epsilon, \epsilon \sim N(0, \sigma^2) 彼らはそのwrtエラー項分散ます。正当化の理由は、実際にはは回帰係数よりもはるかに高い精度で推定され、不確実性を取り入れようとしてもあまり利益が得られないということです。。同様の根拠は、推定されたベータパラメータと当てはまりますか?σ2σ2\sigma^2σ2σ2\sigma^2σ2σ2\sigma^2αα\alphaββ\beta 2)どのパッケージの方が優れていますか(R:gamlss-bb、betareg、aod ?; SASにもアクセスできます)。 3)推定されたベータパラメーターを前提として、将来の成功の数、またはさらに良いことに、ベータ二項分布の下での将来の成功の割合の分位数(2.5%、97.5%)を取得する(概算)ショートカットはありますか?

1
二項GLMM(glmer)を比率または分数である応答変数に近似する
誰かが私が比較的単純な質問だと思うことを手伝ってくれるといいのですが、私は答えを知っていると思いますが、確認なしでは、それは私が確信できないものになっています。 いくつかのカウントデータを応答変数として持っていますが、何かが比例して存在するときにその変数がどのように変化するかを測定したいと思います。 より詳細には、応答変数は多数のサイトでの昆虫種の存在の数です。たとえば、サイトは10回サンプリングされ、この種は4回発生する可能性があります。 これが、これらのサイトの植物の全体的なコミュニティーにおける植物種のグループの比例的な存在と相関関係があるかどうかを確認したいと思います。 これは私のデータが次のように見えることを意味します(これは単なる例です) Site, insectCount, NumberOfInsectSamples, ProportionalPlantGroupPresence 1, 5, 10, 0.5 2, 3, 10, 0.3 3, 7, 9, 0.6 4, 0, 9, 0.1 データには、場所のランダムな影響も含まれます。 私は2つの方法を考えました、1つはlmer昆虫を比率に変換した線形モデル()でしょう lmer.model&lt;-lmer(insectCount/NumberOfInsectSamples~ ProportionalPlantGroupPresence+(1|Location),data=Data) 2番目は二項GLMM(glmer)です。 glmer.model &lt;- glmer(cbind(insectCount,NumberOfInsectSamples-insectCount)~ ProportionalPlantGroupPresence+(1|Location), data=Data,family="binomial") 私は二項グラマーが正しい方法であると信じていますが、それらはかなり異なる結果を生み出します。私はまだ少し不安を感じずにネット上で決定的な答えを見つけることができないようで、間違いを犯さないようにしたいと思います。 これに関する別の方法への助けや洞察は大歓迎です。

1
二項分布の2つのサンプルが同じpに準拠しているかどうかをテスト
私がやったとしましょう: n1n1n_1不明な成功率と観察された成功を伴う独立した試験。p1p1p_1k1k1k_1 n2n2n_2不明な成功率と観察された成功を伴う独立した試験。p2p2p_2k2k2k_2 ここで、がまだ不明である場合、特定の(またはその逆)のを観測する確率)は、\ int_0 ^ 1 B(n_1、p、k_1)B(n_2、 p、k_2)\ text {d} p = \ frac {1} {n_1 + n_2 + 1} \ binom {n_1} {k_1} \ binom {n_2} {k_2} \ binom {n_1 + n_2} {k_1 + k_2 } ^ {-1}なので、p_1 \ neq p_2をテストする場合は、観測値が対応する分布のどの分位点であるかを調べるだけで済みます。p1=p2=:pp1=p2=:pp_1 = p_2 =: pp(k2)p(k2)p(k_2)k2k2k_2k1k1k_1∫10B(n1,p,k1)B(n2,p,k2)dp=1n1+n2+1(n1k1)(n2k2)(n1+n2k1+k2)−1∫01B(n1,p,k1)B(n2,p,k2)dp=1n1+n2+1(n1k1)(n2k2)(n1+n2k1+k2)−1\int_0^1 B(n_1,p,k_1) B(n_2, p, …

1
95%信頼区間の繰り返し実験の説明のシミュレーション研究の問題-どこが間違っているのですか?
95%信頼区間の繰り返し実験解釈をシミュレートするRスクリプトを記述しようとしています。これは、割合の真の母集団値がサンプルの95%CIに含まれている時間の割合を過大評価していることがわかりました。大きな違いはありません-約96%対95%ですが、それでも私は興味を持っていました。 私の関数は、samp_n確率pop_pでベルヌーイ分布からサンプルを取得し、prop.test()連続性補正を使用して、またはより正確に95%信頼区間を計算しbinom.test()ます。真の人口比率pop_pが95%CIに含まれている場合、1を返します。私は2つの関数を作成しました。1つはを使用する関数、もう1つはを使用しprop.test()、binom.test()両方で同様の結果を得たものです。 in_conf_int_normal &lt;- function(pop_p = 0.3, samp_n = 1000, correct = T){ ## uses normal approximation to calculate confidence interval ## returns 1 if the CI contain the pop proportion ## returns 0 otherwise samp &lt;- rbinom(samp_n, 1, pop_p) pt_result &lt;- prop.test(length(which(samp == 1)), samp_n) lb &lt;- pt_result$conf.int[1] ub …

2
混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックブートストラップ
以下の移植片は、この記事から引用したものです。私はブートストラップの初心者であり、R bootパッケージを使用した線形混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックのブートストラップブートストラップを実装しようとしています。 Rコード これが私のRコードです: library(SASmixed) library(lme4) library(boot) fm1Cult &lt;- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn &lt;- function(data, indices){ data &lt;- data[indices, ] mod &lt;- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out &lt;- boot(data=Cultivation, statistic=boot.fn, R=99) Out ご質問 …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.