統計とビッグデータ binomial

2

データを使用してモデルを作成するために使用する正しい分布について質問があります。私は50区画の森林インベントリを実施しました。各区画は20m×50mです。プロットごとに、地面を遮る樹冠の割合を推定しました。各プロットには、キャノピーカバーの1つの値（パーセント）があります。割合の範囲は0〜0.95です。衛星画像と環境データに基づいた独立したX変数の行列を使用して、樹冠のカバー率（Y変数）のモデルを作成しています。二項確率変数はn回の独立した試行の合計（つまり、ベルヌーイ確率変数）であるため、二項分布を使用する必要があるかどうかはわかりません。パーセンテージ値は試行の合計ではありません。実際の割合です。上限はありませんが、ガンマを使用する必要がありますか？パーセンテージを整数に変換し、ポアソンをカウントとして使用する必要がありますか？私はガウシアンに固執するべきですか？この方法でパーセンテージをモデル化しようとする文献や教科書には、多くの例はありません。ヒントや洞察は大歓迎です。回答ありがとうございます。実際、ベータ版の配布はまさに私が必要としているものであり、この記事で徹底的に議論されています： Eskelson、BN、Madsen、L.、Hagar、JC、およびTemesgen、H（2011）。ベータ回帰とコピュラモデルを使用した河岸下層植生被覆の推定。Forest Science、57（3）、212-221。これらの作者は、Cribari-NetoとZeileisによるRのbetaregパッケージを使用しています。次の記事では、パーセンテージの範囲に真の0または1が含まれている場合に、ベータ分布の応答変数を変換する適切な方法について説明しています。 Smithson、M.、J。Verkuilen、2006。より良いレモン絞り器？ベータ分布の従属変数を使用した最尤回帰、Psychological Methods、11（1）：54–71。

11 distributions binomial gamma-distribution

2

ランダムグラフの三角形の数の分布と分散

Erdos-Renyiランダムグラフ考えます。個の頂点のセットは、ラベル付けされます。エッジのセットは、ランダムプロセスによって作成されます。N V V = { 1 、2 、... 、N } EG=(V(n),E(p))G=(V(n),E(p))G=(V(n),E(p))nnnVVVV={1,2,…,n}V={1,2,…,n}V = \{1,2,\ldots,n\}EEE ましょう確率であり、各非順序対頂点（）内のエッジとして生じる確率で独立他の対の、。0 < p < 1 { i 、j } i ≠ j E pppp0<p<10<p<10<p<1{i,j}{i,j}\{i,j\}i≠ji≠ji \neq jEEEppp の三角形は、、、がエッジであるような、異なる頂点の順序付けされていないトリプルです。。{ i 、j 、k } { i 、j } { j 、k } { k 、i } GGGG{i,j,k}{i,j,k}\{i,j,k\}{i,j}{i,j}\{i,j\}{j,k}{j,k}\{j,k\}{k,i}{k,i}\{k,i\}GGG 可能な三角形の最大数は(n3)(n3)\binom{n}{3}です。確率変数XXXをグラフG内の観測された三角形の数と定義しますGGG。 3つのリンクが同時に存在する確率はp3p3p^3です。したがって、Xの期待値はE（X）= \ …

10 probability distributions binomial graph-theory

1

なぜサンプル比率も二項分布を持たないのですか？

二項設定では、成功数を与える確率変数Xが二項分布されます。次に、サンプル比率をXとして計算できます。ここで、nはサンプルサイズです。私の教科書はそれを述べていますバツんバツん\frac{X}{n}んんn この比率には二項分布はありませんただし、X以降は単に二項分布の確率変数Xのスケーリングされたバージョンですが、二項分布も持つべきではありませんか？バツんバツん\frac{X}{n}バツバツX

10 distributions binomial proportion sample

1

それを表示する場合は、そして

現在これにこだわっていますが、おそらく二項分布の平均偏差を使用する必要があることはわかっていますが、わかりません。

10 self-study binomial mean expected-value proof

1

比率と二項分布によるサンプルサイズの決定

私は、SokalとRohlfによるBiometry（3e）という本を使用して、いくつかの統計を学ぼうとしています。これは、確率、二項分布、およびポアソン分布をカバーする第5章の演習です。この質問への答えを生成する式があることを理解しています：ただし、この式はこのテキストにはありません。確率、望ましい信頼レベル、および二項分布のみを知ってサンプルサイズを計算する方法を知りたいのですが。私が指摘できるこのトピックをカバーするリソースはありますか？私はGoogleを試しましたが、これまでに見たものには、この問題でアクセスできない情報が必要です。n=4(p–√−q√)2n=4(p−q)2 n = \frac 4 {( \sqrt{p} - \sqrt{q} )^2}

10 self-study binomial proportion power-analysis type-i-and-ii-errors

1

観測48で革新的な異常値をARIMAモデルに組み込むにはどうすればよいですか？

私はデータセットに取り組んでいます。いくつかのモデル識別手法を使用した後、私はARIMA（0,2,1）モデルを思いつきました。 R detectIOのパッケージの関数を使用して、元のデータセットの48回目の観測で革新的な外れ値（IO）TSAを検出しました。この外れ値をモデルに組み込んで、予測に使用するにはどうすればよいですか？Rではそれから予測を行うことができない可能性があるため、ARIMAXモデルを使用したくありません。これを行う方法は他にありますか？これが私の値です。 VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …

10 r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models

2

ロジット変換線形回帰、ロジスティック回帰、およびロジスティック混合モデルの違いは何ですか？

私には10人の生徒がいて、それぞれが20の数学の問題を解こうとしているとします。問題は（longdataで）正解または不正解としてスコアリングされ、各学生のパフォーマンスは（subjdataで）精度測定によって要約できます。以下のモデル1、2、および4は異なる結果を生成するように見えますが、同じことを行っていると理解しています。なぜ結果が異なるのですか？（参考のためにモデル3を含めました。） library(lme4) set.seed(1) nsubjs=10 nprobs=20 subjdata = data.frame('subj'=rep(1:nsubjs),'iq'=rep(seq(80,120,10),nsubjs/5)) longdata = subjdata[rep(seq_len(nrow(subjdata)), each=nprobs), ] longdata$correct = runif(nsubjs*nprobs)<pnorm(longdata$iq/50-1.4) subjdata$acc = by(longdata$correct,longdata$subj,mean) model1 = lm(logit(acc)~iq,subjdata) model2 = glm(acc~iq,subjdata,family=gaussian(link='logit')) model3 = glm(acc~iq,subjdata,family=binomial(link='logit')) model4 = lmer(correct~iq+(1|subj),longdata,family=binomial(link='logit'))

10 r regression logistic generalized-linear-model binomial

1

Anova（）とdrop1（）がGLMMに異なる回答を提供したのはなぜですか？

次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル（異なるグループでnが等しくない場合）、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。これらの2つの方法の間に違いがあるのはなぜですか？ GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか？これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか？

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

1

クーポンコレクターの問題の一般的な形式の公式はありますか？

私はクーポンコレクターの問題に遭遇し、一般化の公式を考え出そうとしていました。ある場合は個別のオブジェクトは、あなたが少なくとも収集するk個の任意の各コピーメートルそれらの（M ≤ N）、あなたが買うべきか、多くのランダムなオブジェクトの期待は何ですか？。通常のクーポンコレクターの問題には、m = Nおよびk = 1があります。NNNkkkmmmm≤Nm≤Nm \le Nm=Nm=Nm = Nk=1k=1k = 1 コレクションには12種類のレゴフィギュアがあります。10体（各10体）それぞれ3枚ずつ集めたい。ランダムに1つずつ購入できます。それらのそれぞれの3つのコピーを入手する前に、いくつ購入する予定ですか？

10 probability binomial expected-value coupon-collector-problem

3

二項確率変数とポアソン確率変数の合計

我々は、2つの独立した確率変数がある場合は及びX 2〜P 、O 、I S（λに）、の確率質量関数ものであるX 1 + X 2は？X1∼Binom(n,p)X1∼Binom(n,p)X_1 \sim \mathrm{Binom}(n,p)X2∼Pois(λ)X2∼Pois(λ)X_2 \sim \mathrm{Pois}(\lambda)X1+X2X1+X2X_1 + X_2 NBこれは私にとって宿題ではありません。

10 distributions self-study binomial poisson-distribution

1

二項設定の下での成功の将来の割合の予測間隔

二項回帰を当てはめ、回帰係数の点推定と分散共分散行列を取得するとします。これにより、将来の実験で期待される成功の割合 CIを取得できますが、観測された割合のCIが必要です。シミュレーション（私はそれをしたくないと思う）やKrishnamoorthya et al（私の質問には完全には答えていません）へのリンクなど、いくつかの関連する回答が投稿されています。ppp 私の推論は次のとおりです：二項モデルだけを使用する場合、は（対応するWald CIを使用して）正規分布からサンプリングされると仮定する必要があるため、閉じた形式で観測された比率のCIを取得することは不可能です。がベータ分布からサンプリングされると仮定すると、成功数はベータ二項分布に従うため、状況ははるかに簡単です。推定ベータパラメーターおよび不確実性がないと仮定する必要があります。ppppppαα\alphaββ\beta 3つの質問があります。 1）理論的なもの：ベータパラメータのポイント推定値のみを使用しても問題ありませんか？多重線形回帰で将来の観測のためにCIを構築することを知っています Y=x′β+ϵ,ϵ∼N(0,σ2)Y=x′β+ϵ,ϵ∼N(0,σ2)Y = x'\beta + \epsilon, \epsilon \sim N(0, \sigma^2) 彼らはそのwrtエラー項分散ます。正当化の理由は、実際にはは回帰係数よりもはるかに高い精度で推定され、不確実性を取り入れようとしてもあまり利益が得られないということです。。同様の根拠は、推定されたベータパラメータと当てはまりますか？σ2σ2\sigma^2σ2σ2\sigma^2σ2σ2\sigma^2αα\alphaββ\beta 2）どのパッケージの方が優れていますか（R：gamlss-bb、betareg、aod ?; SASにもアクセスできます）。 3）推定されたベータパラメーターを前提として、将来の成功の数、またはさらに良いことに、ベータ二項分布の下での将来の成功の割合の分位数（2.5％、97.5％）を取得する（概算）ショートカットはありますか？

9 confidence-interval binomial beta-binomial beta-regression gamlss

1

二項GLMM（glmer）を比率または分数である応答変数に近似する

誰かが私が比較的単純な質問だと思うことを手伝ってくれるといいのですが、私は答えを知っていると思いますが、確認なしでは、それは私が確信できないものになっています。いくつかのカウントデータを応答変数として持っていますが、何かが比例して存在するときにその変数がどのように変化するかを測定したいと思います。より詳細には、応答変数は多数のサイトでの昆虫種の存在の数です。たとえば、サイトは10回サンプリングされ、この種は4回発生する可能性があります。これが、これらのサイトの植物の全体的なコミュニティーにおける植物種のグループの比例的な存在と相関関係があるかどうかを確認したいと思います。これは私のデータが次のように見えることを意味します（これは単なる例です） Site, insectCount, NumberOfInsectSamples, ProportionalPlantGroupPresence 1, 5, 10, 0.5 2, 3, 10, 0.3 3, 7, 9, 0.6 4, 0, 9, 0.1 データには、場所のランダムな影響も含まれます。私は2つの方法を考えました、1つはlmer昆虫を比率に変換した線形モデル（）でしょう lmer.model<-lmer(insectCount/NumberOfInsectSamples~ ProportionalPlantGroupPresence+(1|Location),data=Data) 2番目は二項GLMM（glmer）です。 glmer.model <- glmer(cbind(insectCount,NumberOfInsectSamples-insectCount)~ ProportionalPlantGroupPresence+(1|Location), data=Data,family="binomial") 私は二項グラマーが正しい方法であると信じていますが、それらはかなり異なる結果を生み出します。私はまだ少し不安を感じずにネット上で決定的な答えを見つけることができないようで、間違いを犯さないようにしたいと思います。これに関する別の方法への助けや洞察は大歓迎です。

9 r binomial proportion glmm lme4-nlme

1

二項分布の2つのサンプルが同じpに準拠しているかどうかをテスト

私がやったとしましょう： n1n1n_1不明な成功率と観察された成功を伴う独立した試験。p1p1p_1k1k1k_1 n2n2n_2不明な成功率と観察された成功を伴う独立した試験。p2p2p_2k2k2k_2 ここで、がまだ不明である場合、特定の（またはその逆）のを観測する確率）は、\ int_0 ^ 1 B（n_1、p、k_1）B（n_2、 p、k_2）\ text {d} p = \ frac {1} {n_1 + n_2 + 1} \ binom {n_1} {k_1} \ binom {n_2} {k_2} \ binom {n_1 + n_2} {k_1 + k_2 } ^ {-1}なので、p_1 \ neq p_2をテストする場合は、観測値が対応する分布のどの分位点であるかを調べるだけで済みます。p1=p2=:pp1=p2=:pp_1 = p_2 =: pp(k2)p(k2)p(k_2)k2k2k_2k1k1k_1∫10B(n1,p,k1)B(n2,p,k2)dp=1n1+n2+1(n1k1)(n2k2)(n1+n2k1+k2)−1∫01B(n1,p,k1)B(n2,p,k2)dp=1n1+n2+1(n1k1)(n2k2)(n1+n2k1+k2)−1\int_0^1 B(n_1,p,k_1) B(n_2, p, …

9 hypothesis-testing binomial references

1

95％信頼区間の繰り返し実験の説明のシミュレーション研究の問題-どこが間違っているのですか？

95％信頼区間の繰り返し実験解釈をシミュレートするRスクリプトを記述しようとしています。これは、割合の真の母集団値がサンプルの95％CIに含まれている時間の割合を過大評価していることがわかりました。大きな違いはありません-約96％対95％ですが、それでも私は興味を持っていました。私の関数は、samp_n確率pop_pでベルヌーイ分布からサンプルを取得し、prop.test()連続性補正を使用して、またはより正確に95％信頼区間を計算しbinom.test()ます。真の人口比率pop_pが95％CIに含まれている場合、1を返します。私は2つの関数を作成しました。1つはを使用する関数、もう1つはを使用しprop.test()、binom.test()両方で同様の結果を得たものです。 in_conf_int_normal <- function(pop_p = 0.3, samp_n = 1000, correct = T){ ## uses normal approximation to calculate confidence interval ## returns 1 if the CI contain the pop proportion ## returns 0 otherwise samp <- rbinom(samp_n, 1, pop_p) pt_result <- prop.test(length(which(samp == 1)), samp_n) lb <- pt_result$conf.int[1] ub …

9 r confidence-interval binomial theory

2

混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックブートストラップ

以下の移植片は、この記事から引用したものです。私はブートストラップの初心者であり、R bootパッケージを使用した線形混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックのブートストラップブートストラップを実装しようとしています。 Rコードこれが私のRコードです： library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) Out ご質問 …

9 r mixed-model bootstrap central-limit-theorem stable-distribution time-series hypothesis-testing markov-process r correlation categorical-data association-measure meta-analysis r anova confidence-interval lm r bayesian multilevel-analysis logit regression logistic least-squares eda regression notation distributions random-variable expected-value distributions markov-process hidden-markov-model r variance group-differences microarray r descriptive-statistics machine-learning references r regression r categorical-data random-forest data-transformation data-visualization interactive-visualization binomial beta-distribution time-series forecasting logistic arima beta-regression r time-series seasonality large-data unevenly-spaced-time-series correlation statistical-significance normalization population group-differences demography

タグ付けされた質問 「binomial」

タグ付けされた質問「binomial」