タグ付けされた質問 「binomial」

二項分布は、固定数の独立した「試行」における「成功」の頻度を示します。このタグは、二項分布される可能性のあるデータに関する質問や、この分布の理論に関する質問に使用します。

4
lme4(> 1.0)に適合した二項GLMMの適合を評価する方法は?
私は二項分布とロジットリンク関数を備えたGLMMを所有しており、データの重要な側面がモデルで十分に表現されていないように感じています。 これをテストするために、データがロジットスケールの線形関数で適切に記述されているかどうかを知りたいと思います。したがって、残差が適切に動作するかどうかを知りたいです。ただし、どの残差プロットでプロットするか、プロットをどのように解釈するかはわかりません。 新しいバージョンのlme4(GitHubの開発バージョン)を使用していることに注意してください。 packageVersion("lme4") ## [1] ‘1.1.0’ 私の質問は次のとおりです。ロジットリンク関数を使用して、二項一般化線形混合モデルの残差を検査および解釈するにはどうすればよいですか。 次のデータは、実際のデータの17%しか表していませんが、フィッティングは既に私のマシンで約30秒かかるため、次のようにします。 require(lme4) options(contrasts=c('contr.sum', 'contr.poly')) dat <- read.table("http://pastebin.com/raw.php?i=vRy66Bif") dat$V1 <- factor(dat$V1) m1 <- glmer(true ~ distance*(consequent+direction+dist)^2 + (direction+dist|V1), dat, family = binomial) 最も単純なプロット(?plot.merMod)は以下を生成します。 plot(m1) これはすでに何か教えてくれますか?

3
ロジスティック回帰はどのように二項分布を使用しますか?
ロジスティック回帰が二項分布を使用する方法を理解しようとしています。 私は鳥の巣の成功を研究しているとしましょう。巣が成功する確率は0.6です。二項分布を使用して、n回の試行(学習した巣の数)が与えられた場合のr成功の確率を計算できます。 しかし、モデリングの文脈で二項分布はどのように使用されますか?平均気温が巣の成功にどのように影響するかを知りたいとし、ロジスティック回帰を使用してこの質問を調べます。 説明したコンテキスト内で、ロジスティック回帰はどのように二項分布を使用しますか? 私は直感的な答え、したがって方程式のない答えを探しています!方程式は、直感的なレベルで理解が得られた場合にのみ役立つと思います。

4
増加した患者数を説明するために二項モデルでオフセットを使用する
私からの2つの関連する質問。1つの列に患者の数(範囲10〜17人の患者)と、その日にインシデントが発生したかどうかを示す0と1を含むデータフレームがあります。私は二項モデルを使用して、多数の患者のインシデントの確率を回帰しています。しかし、患者の数が増えると、その日の病棟での患者の総時間は長くなるため、必然的にインシデントが増えるという事実に合わせて調整したいと思います。 だから私はこのようなオフセット二項モデルを使用しています(Rコード): glm(Incident~Numbers, offset=Numbers, family=binomial, data=threatdata) 私の質問は: 正確に同じ変数を予測してオフセットに入れても大丈夫ですか?インシデントの可能性の強大な増加を部分的に取り除き、本質的に何かが残っているかどうかを確認したい 私には理にかなっていますが、私が間違っている場合には少し慎重です。 オフセットは正しく指定されていますか?ポアソンモデルでは次のようになります。 offset=log(Numbers) ここに同等のものがあるかどうかはわかりませんが、Googleで二項オフセットを見つけることができないようです(主な問題は、私が負の二項を取得し続けることです、もちろん良くありません)。

1
帰無仮説の下で二項検定をシミュレートする場合のp値の不均一な分布
帰無仮説では、p値の分布は均一であるはずだと聞きました。ただし、MATLABの二項検定のシミュレーションでは、平均が0.5(この場合は0.518)を超える非常に異なる不均一分布が返されます。 coin = [0 1]; success_vec = nan(20000,1); for i = 1:20000 success = 0; for j = 1:200 success = success + coin(randperm(2,1)); end success_vec(i) = success; end p_vec = binocdf(success_vec,200,0.5); hist(p_vec); 乱数を生成する方法を変更しようとしても、助けにはなりませんでした。ここで説明をいただければ幸いです。

3
Nが成功するまでフリップをモデリングするにはどうすればよいですか?
あなたと私は、コインを投げて交代するゲームをすることにしました。最初に合計10個のヘッドをフリップしたプレーヤーがゲームに勝利します。当然、誰が先に行くべきかという議論があります。 このゲームのシミュレーションでは、最初に弾くプレーヤーのほうが2番目に弾くプレーヤーよりも6%多く勝ちます(最初のプレーヤーが約53%勝つ)。これを分析的にモデリングすることに興味があります。 これは二項確率変数ではありません。試行回数が固定されていないためです(誰かが10頭になるまで反転します)。これをどのようにモデル化できますか?負の二項分布ですか? 結果を再作成できるように、ここに私のpythonコードがあります: import numpy as np from numba import jit @jit def sim(N): P1_wins = 0 P2_wins = 0 for i in range(N): P1_heads = 0 P2_heads = 0 while True: P1_heads += np.random.randint(0,2) if P1_heads == 10: P1_wins+=1 break P2_heads+= np.random.randint(0,2) if P2_heads==10: P2_wins+=1 break return P1_wins/N, …

2
二項分布の
この質問は、技術的なフォローアップでこの質問。 Raftery(1988)でNNN提示されたモデルの理解と複製に問題があります:二項Nパラメーターの推論: WinBUGS / OpenBUGS / JAGSの階層ベイズアプローチ。ただし、コードだけではないので、ここでトピックを取り上げる必要があります。 バックグラウンド ましょうの未知との二項分布から、成功回数の集合Nとθ。さらに、Nはパラメーターμのポアソン分布に従うと仮定します(論文で説明)。その後、各xは、私は平均のポアソン分布持っλ = μ θを。λとθの観点から事前確率を指定したい。x=(x1,…,xn)x=(x1,…,xn)x=(x_{1},\ldots,x_{n})NNNθθ\thetaNNNμμ\muxixix_{i}λ=μθλ=μθ\lambda = \mu \thetaλλ\lambdaθθ\theta またはθに関する十分な事前知識がないと仮定して、λとθの両方に情報のない事前分布を割り当てたいと思います。言う、私の事前確率であるλ 〜G A M M A(0.001 、0.001 )およびθ 〜U N I F O R M(0 、1 )。NNNθθ\thetaλλ\lambdaθθ\thetaλ∼Gamma(0.001,0.001)λ∼Gamma(0.001,0.001)\lambda\sim \mathrm{Gamma}(0.001, 0.001)θ∼Uniform(0,1)θ∼Uniform(0,1)\theta\sim \mathrm{Uniform}(0, 1) 著者は不適切な事前分布を使用していますが、WinBUGSは不適切な事前分布を受け入れません。p(N,θ)∝N−1p(N,θ)∝N−1p(N,\theta)\propto N^{-1} 例 紙(226ページ)では、観測されたウォーターバックの次の成功数が用意されています:。母集団のサイズであるNを推定したい。53,57,66,67,7253,57,66,67,7253, 57, 66, 67, 72NNN WinBUGS(@StéphaneLaurentのコメントの後に更新)の例を解決しようとした方法は次のとおりです。 model { # Likelihood for …

4
勾配ブースティングマシンの精度は、反復回数が増えると低下します
caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。 小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

4
オンラインポーカーサイトが公正かどうかを調べる方法
先週、私の良き友人と興味深い議論をしました。彼はオンラインポーカーをプレイしていて、新しいサブスクリプション/追加の送金とあなたが配られるカードの間には関係があると示唆していました。これが本当なら、サイトはおそらく多くのリスクを冒すでしょうが、それでも問題は私を魅了します。 これに対する最初のアプローチは、友人に「良いカード」を定義して簡単な 二項検定。私の友人は、本当に良いカードが何であるかを定義するのに苦労しました。彼が本当に悪いカードを獲得した場合、彼はフォールドすることを知っていますが、彼が良いカードを獲得した場合、彼はオールインすることを知っています-悪いカードはその間にあります。 私の他のアプローチは、与えられた各ハンドの正確な確率を計算し、それが異なる分布形状と真のシフトを検出するはずなので、おそらくウィルコクソンの符号付きランク検定を使用して、予想と異なるかどうかを確認することです。難しいのは、正確な確率を計算することだと思います。 データは、最初の0〜100枚の配られたカードと1週間後の300〜400枚の配られたカード(またはしばらくサイトにいた友人)で構成されます。 質問:この問題にどのようにアプローチしますか? テキサスホールデムの仕組み 私はエキスパートゲーマーではありません(テキサスホールデムを3〜4回しかプレイしていません)が、かなり簡単です。詳細については、ウィキペディアのページをご覧ください。 通常のポーカーとの主な違いは、開始時に2枚のカードしか受け取れないことです。これらのカードを切り替えることはできません。テーブルには、もう5枚のカードが裏向きにあります。2つとテーブル5を組み合わせることで、最高の5カードポーカーハンドを選択します。 たとえば、2つのエースを獲得した場合、良いスタートを切り、おそらく強力になります。7と2を持っている場合、勝つチャンスは非常に少なく、すぐにフォールドします。難しい部分はおそらくクイーンと9で、カードは「平均」を上回っていても何もなしで終わる可能性があります。ここでポーカーのハンドのリストを見つけることができます。

7
ポアソン分布が二項分布の限定的なケースである理由を直感的に理解する
DS Siviaによる「データ分析」では、二項分布からポアソン分布の導出があります。 彼らは、ポアソン分布はときの二項分布の限定的なケースであると主張しています。M→∞M→∞M\rightarrow\inftyここで、MMMは試行回数です。 質問1:その議論はどのように直感的に理解できますか? 質問2:なぜ大であるMMMの上限M NにM!N!(M−N)!M!N!(M−N)!\frac{M!}{N!(M-N)!}等しいMNN!MNN!\frac{M^{N}}{N!}、NNNはMMM回の試行の成功数ですか?(このステップは派生で使用されます。)

2
ロジスティック回帰の過剰分散
私はロジスティック回帰における過剰分散の概念を理解しようとしています。過剰分散とは、応答変数の観測された分散が二項分布から予想されるよりも大きい場合のことです。 しかし、二項変数が2つの値(1/0)しか持てない場合、どのようにして平均と分散を持つことができますか? x回のベルヌーイ試行から成功の平均と分散を計算することに問題はありません。しかし、2つの値しか持てない変数の平均と分散の概念に頭を抱えることはできません。 誰でも直感的な概要を提供できますか? 2つの値しか持てない変数の平均と分散の概念 2つの値しか持てない変数での過剰分散の概念

2
二項分布の分散がわかりません
私はそのような基本的な質問をすることさえ本当に馬鹿だと感じますが、ここに行きます: 私は、ランダムな変数がある場合は値取ることができますとして、と私が描くならば、それからサンプルを、私が買ってあげます二項分布。XXX000111P(X=1)=pP(X=1)=pP(X=1) = pP(X=0)=1−pP(X=0)=1−pP(X=0) = 1-pnnn 分布の平均は μ=np=E(X)μ=np=E(X)\mu = np = E(X) 分布の分散は σ2=np(1−p)σ2=np(1−p)\sigma^2 = np(1-p) ここから私のトラブルが始まります: 分散はで定義されます。2つの可能な結果の2乗は何も変化しないため(および)、これはを意味するため、σ2=E(X2)−E(X)2σ2=E(X2)−E(X)2\sigma^2 = E(X^2) - E(X)^2XXX02=002=00^2 = 012=112=11^2 = 1E(X2)=E(X)E(X2)=E(X)E(X^2) = E(X) σ2=E(X2)−E(X)2=E(X)−E(X)2=np−n2p2=np(1−np)≠np(1−p)σ2=E(X2)−E(X)2=E(X)−E(X)2=np−n2p2=np(1−np)≠np(1−p)\sigma^2 = E(X^2) - E(X)^2 = E(X) - E(X)^2 = np - n^2p^2 = np(1-np) \neq np(1-p) 余分なはどこに行くのですか?おそらく私は統計があまり得意ではないので、複雑な用語は使用しないでください。nnn

1
二項確率変数の予測区間
二項確率変数の予測区間の式(近似または正確)は何ですか? と仮定すると、(から描画)が観測されます。知られています。Y Y NY∼Binom(n,p)Y∼Binom(n,p)Y \sim \mathsf{Binom}(n, p)yyyYYYnnn 私たちの目標は、からの新しいドローの95%の予測間隔を取得することです。YYY ポイント推定値は、ここでです。の信頼区間は簡単ですが、予測区間の公式は見つかりません。(ではなく)を知っていた場合、95%の予測区間は、二項の分位数を見つけることだけを含みます。私が見落としている明らかなものはありますか?、P = Ynp^np^n\hat{p}P YP Pp^=ynp^=yn\hat{p}=\frac{y}{n}p^p^\hat{p}YYYpppp^p^\hat{p}

2
R:family =“ binomial”および“ weight”仕様のglm関数
family = "binomial"を使用してglmで体重がどのように機能するか、非常に混乱しています。私の理解では、family = "binomial"のglmの可能性は次のように指定されます f(y)=(nny)pny(1−p)n(1−y)=exp(n[ylogp1−p−(−log(1−p))]+log(nny))f(y)=(nny)pny(1−p)n(1−y)=exp⁡(n[ylog⁡p1−p−(−log⁡(1−p))]+log⁡(nny)) f(y) = {n\choose{ny}} p^{ny} (1-p)^{n(1-y)} = \exp \left(n \left[ y \log \frac{p}{1-p} - \left(-\log (1-p)\right) \right] + \log {n \choose ny}\right) ここで、yyyは「観察された成功の割合」であり、nnnは既知の試行回数です。 私の理解では、成功の確率pppは、ような線形係数とfamily = "binomial"のglm関数でパラメーター化されます: 次に、この最適化問題は次のように簡略化できます。ββ\betap=p(β)p=p(β)p=p(\beta)argmaxβ∑ilogf(yi).argmaxβ∑ilog⁡f(yi). \textrm{arg}\max_{\beta} \sum_i \log f(y_i). argmaxβ∑ilogf(yi)=argmaxβ∑ini[yilogp(β)1−p(β)−(−log(1−p(β)))]+log(niniyi)=argmaxβ∑ini[yilogp(β)1−p(β)−(−log(1−p(β)))]argmaxβ∑ilog⁡f(yi)=argmaxβ∑ini[yilog⁡p(β)1−p(β)−(−log⁡(1−p(β)))]+log⁡(niniyi)=argmaxβ∑ini[yilog⁡p(β)1−p(β)−(−log⁡(1−p(β)))] \textrm{arg}\max_{\beta} \sum_i \log f(y_i)= \textrm{arg}\max_{\beta} \sum_i n_i \left[ y_i \log \frac{p(\beta)}{1-p(\beta)} - \left(-\log …

5
一連のnベルヌーイ試行におけるk回の成功の確率
私は25回の試行のブロックで8回の試行が連続して正しい確率を見つけようとしています.8回の試行を連続して取得するには合計8つのブロック(25回の試行のうち)があります。推測に基づいて試行が正解になる確率は1/3で、8行連続で正解になるとブロックが終了します(したがって、8行連続で正解になることは技術的に不可能です)。これが発生する確率を見つけるにはどうすればよいですか?私は(1/3)^ 8を使用して、8を連続で取得する確率として正しいと考えてきました。17を掛けると、25回の試行のブロックで8を連続で取得する可能性が17あります。可能性* 8ブロックで136が得られますが、1-(1-(1/3)^ 8)^ 136はこの状況で8が正しい可能性を与えますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.