タグ付けされた質問 「binomial」

二項分布は、固定数の独立した「試行」における「成功」の頻度を示します。このタグは、二項分布される可能性のあるデータに関する質問や、この分布の理論に関する質問に使用します。

2
SAS PROC GLIMMIXが二項glmmに対してglmer(lme4)とは非常に異なるランダムな勾配を与えるのはなぜですか
私はRに精通しているユーザーであり、4つの生息地変数について5年間で約35人のランダムな勾配(選択係数)を推定しようとしています。応答変数は、場所が「使用済み」(1)または「使用可能」(0)の生息地(以下「使用」)であったかどうかです。 Windows 64ビットコンピューターを使用しています。 Rバージョン3.1.0では、以下のデータと式を使用します。PS、TH、RS、およびHWは固定効果です(標準化された、測定された生息地までの距離)。lme4 V 1.1-7。 str(dat) 'data.frame': 359756 obs. of 7 variables: $ use : num 1 1 1 1 1 1 1 1 1 1 ... $ Year : Factor w/ 5 levels "1","2","3","4",..: 4 4 4 4 4 4 4 4 3 4 ... $ ID : …

2
なぜこの分布は均一なのですか?
私たちはベイジアン統計検定を調査していますが、奇妙な(少なくとも私にとって)現象に出くわします。 次の場合を考えてみましょう。AまたはBのどちらの母集団のコンバージョン率が高いかを測定することに関心があります。健全性チェックでは、を設定しpA=pBpA=pBp_A = p_Bます。つまり、変換の確率は両方のグループで等しくなります。二項モデルを使用して人工データを生成しnA∼Binomial(N,pA)nA∼Binomial(N,pA)n_A \sim \text{Binomial}(N, p_A) 次に、ベイジアンベータ二項モデルを使用してを推定し、各変換レートの事後確率を取得します。たとえば、pA,pBpA,pBp_A, p_BPA∼Beta(1+nA,N−nA+1)PA∼Beta(1+nA,N−nA+1)P_A \sim \text{Beta}(1 + n_A, N - n_A +1 ) 検定統計量は経由でを計算して計算されます。S=P(PA>PB|N,nA,nB)S=P(PA>PB|N,nA,nB)S = P(P_A > P_B\; |\; N, n_A, n_B) 私が驚いたのは、場合、です。私は、サンプルサイズNが大きくなると、0.5を中心に0.5に収束し、さらには0.5に収束すると考えていました。 pA=pBpA=pBp_A = p_BS∼Uniform(0,1)S∼Uniform(0,1)S \sim \text{Uniform(0,1)}NNN 私の質問は、 p_A = p_BのときにS \ sim \ text {Uniform(0,1)} なのはなぜですか?S∼Uniform(0,1)S∼Uniform(0,1)S \sim \text{Uniform(0,1)}pA=pBpA=pBp_A = p_B デモするPythonコードを次に示します。 %pylab from …

3
二項分布のフィッシャー情報が
二項式の分散が比例するということは、私の心を混乱させたり吹き飛ばしたりします。同様に、フィッシャー情報は1に比例します。p(1−p)p(1−p)p(1-p)。この理由は何ですか?フィッシャー情報がp=0.5で最小化されるのはなぜですか?つまり、p=0.5で推論が最も難しいのはなぜですか1p(1−p)1p(1−p)\frac{1}{p(1-p)}p=0.5p=0.5p=0.5p=0.5p=0.5p=0.5ですか? 環境: 私はサンプルサイズ計算機で作業しており、必要なサンプルサイズであるの式は、p (1 − p )の増加因子であり、導出における分散推定の結果です。NNNp(1−p)p(1−p)p(1-p)

1
RのPROC Mixedとlme / lmerの違い-自由度
注:法的な理由で以前の質問を削除する必要があったため、この質問は再投稿です。 SASのPROC MIXED をR lmeのnlmeパッケージの関数と比較していると、やや紛らわしい違いを見つけました。より具体的には、異なるテストの自由度はとの間PROC MIXEDで異なり、lmeなぜだろうと思いました。 次のデータセットから開始します(以下のRコード)。 ind:測定が行われる個人を示す因子 fac:測定が行われる臓器 trt:治療を示す因子 y:連続応答変数 アイデアは、次の単純なモデルを構築することです: y ~ trt + (ind):indランダムな要因として y ~ trt + (fac(ind)):facにネストされたindランダムな要因として、 最後のモデルでは特異性が生じることに注意してください。とのyすべての組み合わせに対しての値は1つだけです。indfac 最初のモデル SASでは、次のモデルを作成します。 PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; チュートリアルによると、使用しているRの同じモデルnlmeは次のようになります。 > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 両方のモデルは、係数とそのSEに対して同じ推定値を与えますがtrt、の効果に対してF検定を実行する場合、異なる自由度を使用します。 SAS …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

2
階層ベイジアンモデル(?)
統計用語の虐殺について謝罪してください:)ここで、広告とクリックスルー率に関連するいくつかの質問を見つけました。しかし、それらのどれも私の階層的状況の私の理解で私をあまり助けませんでした。 関連する質問があります。これらの同等の表現は、同じ階層型ベイジアンモデルですか?、しかし、実際に同様の問題があるかどうかはわかりません。別の質問階層ベイジアン二項モデルの事前分布事前は、ハイパープライアについて詳しく説明しますが、それらの解を自分の問題にマッピングすることはできません 新製品のオンライン広告がいくつかあります。広告を数日間掲載しました。その時点で、広告をクリックして十分な人がクリックを獲得している広告を確認しました。クリック数が最も多いものを除いてすべてを追い出した後、広告をクリックしてから実際にどのくらいの人が購入したかを確認するために、さらに数日間実行します。その時点で、そもそも広告を掲載するのが良いアイデアであったかどうかがわかります。 私は毎日数個のアイテムしか売っていないので、私は多くのデータを持っていないので、私の統計はとてもうるさいです。したがって、広告を見た後に何人の人が何かを購入するかを推定することは本当に困難です。150回のクリックごとに約1つだけが購入につながります。 一般的に言って、広告グループごとの統計をすべての広告のグローバル統計で何らかの方法で平滑化することにより、各広告でできるだけ早くお金を失うかどうかを知る必要があります。 すべての広告が十分な購入数に達するまで待つと、時間がかかりすぎるため、壊れてしまいます。10個の広告をテストするため、各広告の統計情報が十分に信頼できるように10倍のお金を費やす必要があります。その時までに私はお金を失ったかもしれません。 すべての広告を平均して購入すると、うまく機能していない広告を追い出すことはできません。 グローバル購入率( N $サブ分布を使用できますか?つまり、各広告のデータが多いほど、その広告の統計情報はより独立したものになります。まだ誰も広告をクリックしていない場合、世界平均が適切であると思います。perclick)anduseitasapriorforperclick)anduseitasapriorfor per click) and use it as a prior for そのためにどのディストリビューションを選択しますか? Aで20回、Bで4回クリックした場合、どのようにモデル化できますか?ここまでで、二項分布またはポアソン分布がここで意味をなすかもしれないことがわかりました。 purchase_rate ~ poisson (?) (purchase_rate | group A) ~ poisson (グループAのみの購入率を推定しますか?) しかし、実際にを計算するには、次に何をしますかpurchase_rate | group A。グループA(または他のグループ)にとって意味のある2つのディストリビューションをプラグインするにはどうすればよいですか。 最初にモデルを適合させる必要がありますか?モデルを「トレーニング」するために使用できるデータがあります。 広告A:352回のクリック、5回の購入 広告B:15回のクリック、0回の購入 広告C:3519回のクリック、130回の購入 いずれかのグループの確率を推定する方法を探しています。グループに含まれるデータポイントが数個しかない場合、基本的に世界平均にフォールバックしたいと思います。私はベイジアン統計について少し知っており、ベイジアン推論や共役事前分布などを使用してモデル化する方法を説明する多くの人々のPDFを読みました。これを適切に行う方法はあると思いますが、正しくモデル化する方法がわかりません。 ベイジアン的な方法で問題を定式化するのに役立つヒントにとても満足しています。これは、実際にこれを実装するために使用できる例をオンラインで見つけるのに大いに役立ちます。 更新: お返事ありがとうございます。私は自分の問題について少しずつ理解し始めています。ありがとうございました!問題をもう少しよく理解しているかどうかを確認するために、いくつか質問をさせてください。 私が想定して変換がベータ分布として配布されており、ベータ分布は、2つのパラメータを持っているaaaとと。bbb の 1212\frac{1}{2} 1212\frac{1}{2}パラメーターはハイパーパラメーターなので、前のパラメーターですか?最後に、ベータ分布のパラメーターとしてコンバージョン数とクリック数を設定しましたか? ある時点で異なる広告を比較したいので、P(conversion|ad=X)=P(ad=X|conversion)∗P(conversion)P(ad=X)P(conversion|ad=X)=P(ad=X|conversion)∗P(conversion)P(ad=X)P(\mathrm{conversion} | …

4
二項分布の推定量
二項分布からのデータの推定量をどのように定義しますか?ベルヌーイの場合、パラメーターpを推定する推定器を考えることができますが、二項分布の場合、分布を特徴付けるnがあるときに推定するパラメーターがわかりませんか? 更新: 推定量とは、観測されたデータの関数を意味します。推定器を使用して、データを生成する分布のパラメーターを推定します。

1
負の二項/ポアソン回帰における過分散と過分散
SASでポアソン回帰を実行していたところ、ピアソンのカイ2乗値を自由度で割った値が約5であり、有意な過剰分散を示していました。したがって、負の二項モデルをproc genmodで近似し、ピアソンのカイ2乗値を自由度で割った値が0.80であることがわかりました。これは現在、分散不足であると考えられていますか?もしそうなら、これをどのように処理するのですか?私は過剰分散について多くを読み、これを処理する方法を知っていると信じていますが、分散不足があるかどうかを処理または決定する方法に関する情報は乏しいです。誰でも手伝ってくれる? ありがとう。


1
参照母集団が与えられた場合の成功確率の推定
次の状況があるとします。 比較的少ない数のゲーム(たとえば、1〜20)をプレイする1000人のボウリングプレーヤーを時間の経過とともに観察しました。あなたは、各プレーヤーがプレイしたゲームの数に対する各プレーヤーのストライキの割合を記録しました。 新しいボウリングプレーヤーが入ってきて、10ゲームをプレイし、3ストライクを取得します。 いずれかのプレーヤーのストライク数の分布は二項分布であると見なされます。 そのプレイヤーの「真の」成功確率を推定したいと思います。 次の点に注意してください。 これは実際の状況や学校の問題ではなく、自分で考えた問題です。 私はStats 101コースよりも統計教育が少ない学生です。私は最尤推定のような推論について少し知っています...だから私が読むべき統計の領域を教えてください。 私の問題は情報が不足しているかもしれません、または、例えば成功確率の分布がほぼ正常であることが有益であるなら、私にそう教えてください。 どうもありがとうございました

6
20,000のトスからの10,000の頭が無効なデータを示唆する理由に関する統計的議論
公正なコインを繰り返し投げているとしましょう。表と裏の数はほぼ同じであることがわかっています。合計20回のトスで10の表と10の表のような結果が表示された場合、その結果を信じており、コインは公正であると考えています。 まあ、合計20000回のトスで頭が10000、尾が10000のような結果が表示された場合、実際には結果の妥当性に疑問を呈します(実験者がデータを偽造したのでしょうか)。 10093頭と9907尾。 私の直感の背後にある統計的議論は何ですか?

6
n点リッカート尺度データを二項プロセスからのn回の試行として扱うことは適切ですか?
少なくとも両極端のスケールでこれらの仮定に違反しているという合理的な期待がある場合に、人々がリッカートスケールのデータを分析して、エラーが連続的でガウス的であるかのように分析する方法が好きではありません。次の代替案についてどう思いますか: 応答がポイントスケールで値をとる場合、そのデータを回の試行に拡張しますの値は1で、の値は0です。したがって、リッカートスケールでの応答はあたかもは、隠れた一連の二項試験の明白な集合体です(実際、認知科学の観点から、これは実際には、そのような意思決定シナリオに関与するメカニズムの魅力的なモデルです)。展開されたデータを使用して、ランダム効果として回答者を指定し(複数の質問がある場合はランダム効果として質問も)、二項リンク関数を使用して誤差分布を指定する混合効果モデルを使用できます。kkkんんnんんnkkkn − kん−kn-k 誰もがこのアプローチの仮定違反や他の有害な側面を見ることができますか?

3
ダイス100は20回以上出現する顔を転がしません
私はこの問題に頭を抱えようとしています。 サイコロを100回振る。顔が20回以上表示されない確率はどれくらいですか?私の最初の考えは、二項分布P(x)= 1-6 cmf(100、1/6、20)を使用することでしたが、いくつかのケースを複数回カウントするため、これは明らかに間違っています。私の2番目のアイデアは、可能なすべてのロールx1 + x2 + x3 + x4 + x5 + x6 = 100を列挙して、xi <= 20とし、多項式を合計することですが、これは計算が集中しすぎるようです。近似解も私にとってはうまくいきます。

3
二変量二項分布を可視化する
質問: 3次元空間では2変量2項分布はどのように見えますか? 以下は、パラメーターのさまざまな値について視覚化したい特定の関数です。つまり、、p 1、およびp 2です。nnnp1p1p_{1}p2p2p_{2} f(x1,x2)=n!x1!x2!px11px22,x1+x2=n,p1+p2=1.f(x1,x2)=n!x1!x2!p1x1p2x2,x1+x2=n,p1+p2=1.f(x_{1},x_{2}) = \frac{n!}{x_{1}!x_{2}!}p_{1}^{x_{1}}p_{2}^{x_{2}}, \qquad x_{1}+x_{2}=n, \quad p_{1}+p_{2}=1. 2つの制約があることに注意してください。およびp 1 + p 2 = 1です。さらに、nは正の整数、たとえば5です。x1+x2=nx1+x2=nx_{1}+x_{2}=np1+p2=1p1+p2=1p_{1}+p_{2}=1nnn555 LaTeX(TikZ / PGFPLOTS)を使用して関数をプロットする試みが2回行われました。そうすることで、、p 1 = 0.1とp 2 = 0.9、およびn = 5、p 1 = 0.4とp 2 = 0.6の値について、以下のグラフを取得します。ドメイン値に制約を実装することに成功していません。x 1 + x 2 = nなので、少し困惑しています。n=5n=5n=5p1=0.1p1=0.1p_{1}=0.1p2=0.9p2=0.9p_{2}=0.9n=5n=5n=5p1=0.4p1=0.4p_{1}=0.4p2=0.6p2=0.6p_{2}=0.6x1+x2=nx1+x2=nx_{1}+x_{2}=n 任意の言語(R、MATLABなど)で作成された視覚化は問題ありませんが、私はTikZ / PGFPLOTSを使用してLaTeXで作業しています。 最初の試み 、 p 1 = …

3
コインを弾くときは、2項式のcdfまたは通常のcdfを使用する必要がありますか?
コインは、公平性をテストする必要があります。50フリップした後、30ヘッドがアップします。コインが公正であると仮定すると、50回のフリップで少なくとも30枚のヘッドが得られる確率はどのくらいですか? 私の先生によると、この問題を解決する正しい方法は、 normalcdf(min = .6, max = ∞, p = .5, σ = sqrt(.5 * .5 / 50) = 0.0786 しかし、私はこのような二項累積分布関数を取った 1 - binomcdf(n = 50, p = .5, x = 29) = 0.1013 二項分布の基準は満たされていると思います:個々のイベントは独立しており、考えられる結果は2つ(表と裏)のみで、確率は質問(0.5)に対して一定で、試行回数は50に固定されています。 。しかし、明らかに、2つの方法は異なる答えを出し、シミュレーションは私の答えをサポートします(少なくとも私が実行した数回。明らかに、同じ結果が得られることは保証できません)。 正規分布曲線もこの問題を実行する有効な方法であると仮定して、先生は間違っていますか(分布は正規であるとは言われていませんが、n * pとn *(1-p)はどちらも10)、または二項分布について何か誤解しましたか?

2
なぜマクネマーの検定は正規分布ではなくカイ二乗を使用するのですか?
正確でないマクネマーの検定がカイ二乗漸近分布をどのように使用するかに気づきました。しかし、正確な検定(2つのケースのテーブルの場合)は二項分布に依存しているため、二項分布の正規近似を提案することが一般的ではないのはなぜですか。 ありがとう。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.