タグ付けされた質問 「binomial」

二項分布は、固定数の独立した「試行」における「成功」の頻度を示します。このタグは、二項分布される可能性のあるデータに関する質問や、この分布の理論に関する質問に使用します。

1
二項分布がデータに適合するかどうかのテスト
そのような離散分布からのサンプルがあります: Type: 0 1 2 3 4 5 Occurrences: 88 12 52 43 21 5 私の仕事は、二項分布(n = 5、p)がこのデータに適合するかどうかをテストすることです。 私は仮説検定を使用することを意図しており、カイ2乗検定はこの種のタスクの主要なものであることを理解しています。私はこの関連する質問を見ましたが、それでもテストの設定方法がわかりません。どうすればよいですか?


1
二項式のパラメーターの推定
まず第一に、私はこの主題の専門家ではないことを明確にしたいと思います。 と 2 項の2つの確率変数とがあるとすると、は同じであること注意してください。ことを知っていXXXYYYX∼B(n1,p)X∼B(n1,p)X\sim B(n_1,p)Y∼B(n2,p),Y∼B(n2,p),Y\sim B(n_2,p),pppZ=X+Y∼B(n1+n2,p).Z=X+Y∼B(n1+n2,p).Z=X+Y \sim B(n_1+n_2,p). ましょう 用試料でとのサンプルである、推定するための標準的な方法がある及び?{x1,…,xk}{x1,…,xk}\{x_1,\ldots,x_k\}XXX{y1,…,yk}{y1,…,yk}\{y_1,\ldots,y_k\}YYYn=n1+n2n=n1+n2n=n_1+n_2ppp これが私たちが行ったことです: によって与えられるの「新しいサンプル」を、ZZZ{x1+y1,…,xk+yk}{x1+y1,…,xk+yk}\{x_1+y_1,\ldots, x_k+y_k\} 尤度推定器を使用して、と推定値を取得します。nnnppp フィッシャー情報を使用して、および誤差を理解しようとします。nnnppp この方法は機能しているように見えますが、まだいくつかの疑問があります。してみましょうかけ順列のグループを要素。すべてのについて、によって与えられる「サンプル」を考慮することができ「新しいサンプル」のそれぞれに尤度推定量を適用すると(異なる合計があります、とについて異なる推定られます。SkSkS_kkkkσ∈Skσ∈Sk\sigma\in S_k{x1+yσ(1),…,xk+yσ(k)}.{x1+yσ(1),…,xk+yσ(k)}.\{x_1+y_{\sigma(1)},\dots, x_k+y_{\sigma(k)}\}.k!k!k!(nσ,pσ)(nσ,pσ)(n_\sigma,p_\sigma)nnnppp これの意味は何ですか?新しい値はどのように関連付けられますか?の誤差の計算に使用できますか?nσ,pσnσ,pσn_\sigma, p_\sigmannn 一部のコメント: 質問は以前ここに投稿されていましたが、ユーザーからタット/クロスバリデーションされたSEを使用するように勧められました。 私が念頭に置いている例では、は特定の地域の鳥の数であり、は可視性の確率です。同様の持つ領域を集約する必要があります。そうしないと、データが小さすぎます。特に、可能であれば、推定のみが必要です。ここで、のアプリオリは不明です。p p n pnnnppppppnnnppp 例 明確にするために、kjetil b halvorsenの回答を考慮して、ここで実際的な例を示します。固定された等しい確率で2つのゾーンに分割された領域が1つだけあり、データが次のとおりであるとします。ppp Zone 1 Zone 2 a1 b1 a2 b2 a3 b3 a4 b4 a5 b5 a6 b6 次に、これを検討できます。 Zone 1+2 c1=a1+b1 …

1
ロジスティック回帰の確率
私はRでロジスティック回帰モデルを作成しましたが、結果はある程度満足できるように見えますが、対処できない質問が1つあります。私のアプローチがまったく正しいかどうかはわかりません。 私は、ロジスティックモデルの全体的な目的がバイナリ確率変数の成功確率を予測することであることを知っています。同じロジスティックモデルから、特定の比率の確率を知ることは可能ですか?たとえば、学校に入学する確率を計算することに関心があり、その確率を推定するためにロジスティック回帰を使用するとします。これは、いくつかの独立変数に明らかに依存します。私の質問は同じモデルですが、その特定の学校に入学する学生の割合を推定することは可能ですか? 私はそれを答えるために二項確率を使用しようとしましたが、何らかの理由でそれは私に正しい答えを与えません。どうやってそれをやりましたか。成功の確率がわかっている場合は、従属変数がパラメーターNとPの二項分布に従うこともわかります。ここで、Nは試行回数、Pはロジスティックモデルから推定できる成功の確率です。したがって、比率がpと等しいかそれより低い確率が必要な場合、これは、N回の試行で成功確率がPであるN * p成功またはそれ以下の確率に等しいと考えました。 PS私は成功の確率が全体的な比率/比率であることを知っていますが、私が興味を持っているのは、特定のグループの確率を見つけることです。グループの特性をモデルに含めることができますが、私の場合はそれで制限されます。実際、私は特定のグループの成功よりも、ロジスティックモデルから比率の確率を見つけることに関心があります。 ありがとう

1
通常の近似を使用せずに2グループの2項電力分析を実行するにはどうすればよいですか?
比率が非常に小さい比率の(非)等値の仮説検定の検出力分析をしたいと思います。二項分布の正規(またはポアソン)近似を使用せずに、そうしたいと思います。対処できるようにしたいいくつかの一般的な力の質問があります。 事後:(グループ1で成功する確率)と\ Pr_2とN_1(サンプルサイズグループ1)とN_2を指定して、\ alphaを指定した設計の検出力を計算します。Pr1Pr1\Pr_1Pr2Pr2\Pr_2N1N1N_1N2N2N_2αα\alpha \ alpha、比率N_1 \ over {N_2}、1-\ beta(power)、\ alpha、\ Pr_1、および予想される\ Pr_2が与えられた場合のN の事前解NNNαα\alphaN1N2N1N2N_1\over{N_2}1−β1−β1 - \betaαα\alphaPr1Pr1\Pr_1Pr2Pr2\Pr_2 先験的はを解く1−β1−β1 - \beta所与α,N1,N2,Pr1α,N1,N2,Pr1\alpha, N_1, N_2, \Pr_1、およびPr2Pr2\Pr_2。 理想的な応答にはRコードが含まれ、指摘し忘れていた他のすべての指摘を指摘します。比率が小さいため、シミュレーションアプローチは適切な応答ではありません。ソリューションでは、どのような統計的検定が適用できるかについても説明してください。

2
3つのグループ間の比率を比較するために使用するテストはどれですか?
メールマーケティングキャンペーンをテストしています。最初のテストでは、2つの異なる種類の電子メールを送信し、電子メールを受信しない3番目のコントロールグループを用意しました。現在、アプリに戻ったユーザーの割合として「結果」が返されています。結果は次のとおりです。 Group | received e-mail | returned | %-returned A | 16,895 | 934 | 5.53% B | 17,530 | 717 | 4.09% C | 42408 | 1618 | 3.82% グループAは実際にはBやCよりも優れているようですが、これを示す適切なテストは何ですか?

1
宿題:ベイジアンデータ分析:両方の二項パラメーターの事前分布
以下は、Bayesian Data Analysis 2nd ed、p。97. Andrew Gelmanは彼のウェブサイトのガイドにそのソリューションを含めておらず、一日中私を夢中にさせてきました。文字通り一日中。 yyyNNNθθ\thetaNNNPr(N|μ)=Poisson(μ)Pr(N|μ)=Poisson(μ)\Pr(N|\mu) = Poisson(\mu)μμ\mu(N,θ)(N,θ)(N, \theta)λ=μθλ=μθ\lambda=\mu\thetaNNNp(λ,θ)∝1/λp(λ,θ)∝1/λp(\lambda, \theta) \varpropto 1/\lambda。 私がハングアップしている問題の一部は、変数を変換してを決定する方法です。p(N,θ)p(N,θ)p(N, \theta) 私が試みたアプローチは、記述し、積分によって不要なを排除することです。つまり、、そしてを関係置き換えます。このアプローチは、に減少します。ここで、は(3)から導入された比例定数です。 p(N,θ|λ)p(λ,θ)p(N,θ|λ)p(λ,θ)p(N,\theta|\lambda)p(\lambda, \theta)λλ\lambdap(N,θ)=∫∞0CμN/(exp(μ)λN!)dλp(N,θ)=∫0∞CμN/(exp(μ)λN!)dλp(N,\theta)=\int_0^\infty C\mu^N/(exp(\mu)\lambda N!)d\lambdaμμ\muμ=λ/θμ=λ/θ\mu=\lambda/\thetap(N,θ)=C/(N+1)p(N,θ)=C/(N+1)p(N,\theta)=C/(N+1)CCC この結果は、懸念を私に、それはいくつかの値の同時確率ということを意味するのでとのみに依存してではなく、。さらに、いくつかの漠然とした鐘が、非常に老朽化した多変数計算から鳴り響き、ヤコビアンと座標変換について思い出させようとしていますが、この統合アプローチが適切であるかどうかはわかりません。θθ\thetaNNNNNNθθ\theta 私はあなたの助けと洞察に感謝します。

3
二項回帰漸近線
二項ロジスティック回帰は、1と0の上限と下限の漸近線をそれぞれ持っています。ただし、精度データ(例として)には、1や0とは大きく異なる上限と下限の漸近線がある場合があります。これに対する3つの解決策が考えられます。 関心のある領域内でうまく適合している場合は、心配する必要はありません。うまくフィットしない場合: サンプルの正しい応答の最小数と最大数が0と1の比率になるようにデータを変換します(たとえば0と0.15ではなく)。 または 非線形回帰を使用して、漸近線を指定するか、フィッターに代行させることができます。 オプション1と2は、主に単純化の理由から、オプション3よりも優先されるようです。この場合、オプション3は、より多くの情報を提供できるため、おそらくより良いオプションでしょうか。 編集 ここに例があります。精度の可能な正しい合計は100ですが、この場合の最大精度は〜15です。 accuracy <- c(0,0,0,0,0,1,3,5,9,13,14,15,14,15,16,15,14,14,15) x<-1:length(accuracy) glmx<-glm(cbind(accuracy, 100-accuracy) ~ x, family=binomial) ndf<- data.frame(x=x) ndf$fit<-predict(glmx, newdata=ndf, type="response") plot(accuracy/100 ~ x) with(ndf, lines(fit ~ x)) オプション2(コメントに従って、私の意味を明確にするため)がモデルになります glmx2<-glm(cbind(accuracy, 16-accuracy) ~ x, family=binomial) オプション3(完全を期すため)は次のようなものです。 fitnls<-nls(accuracy ~ upAsym + (y0 - upAsym)/(1 + (x/midPoint)^slope), start = list("upAsym" = max(accuracy), …

3
二項データでRの適合度を使用する場合のNaN p値
二項式へのカウントデータのベクトルの適合度をテストしようとしています。そのためにgoodfit()、vcdパッケージの関数を使用しています。ただし、関数を実行するNaNと、カイ2乗検定のp値が返されます。私のセットアップでは、75要素のカウントデータのベクトルがあります。 > library(vcd) > counts <- c(32, 35, 44, 35, 41, 33, 42, 49, 36, 41, 42, 45, 38, 43, 36, 35, 40, 40, 43, 34, 39, 31, 40, 39, 36, 37, 37, 37, 32, 48, 41, 32, 37, 36, 49, 37, 41, 36, 34, 37, 41, 32, 36, 36, …

2
二分予測変数の多重共線性の評価
私は、タスクの動作(応答時間など)を観察し、いくつかの実験的に操作された変数といくつかの観察された変数(参加者のセックス、参加者のIQ、フォローアップの応答)の関数としてこの動作をモデル化するプロジェクトに取り組んでいます。アップアンケート)。実験変数は独立になるように特別に操作されているため、実験変数間の多重共線性については心配していませんが、観測された変数については心配しています。ただし、評価された変数間の独立性を評価する方法がわからない。これは、評価者の設定方法によって多少異なる結果が得られるように見えるため、また、1つまたは複数のコンテキストでの相関にあまり詳しくないためです。両方の変数は二分です。 たとえば、セックスがIQから独立しているかどうかを判断する2つの異なるアプローチを次に示します。私は帰無仮説有意性検定のファンではないので、両方のアプローチで2つのモデルを構築します。1つは関係あり、もう1つはなしで、次に計算してAIC補正された対数尤度比を計算します。 m1 = lm(IQ ~ 1) m2 = lm(IQ ~ sex) LLR1 = AIC(m1)-AIC(m2) m3 = glm(sex~1,family='binomial') m4 = glm(sex~IQ,family='binomial') LLR2 = AIC(m3)-AIC(m4) ただし、これらのアプローチでは多少異なる答えが得られます。LLR1は約7で、関係を支持する強い証拠を示唆しています。一方、LLR2は約0.3で、関係を支持する非常に弱い証拠を示唆しています。 さらに、性別と別の二分観測変数 "yn"との間の独立性を評価しようとすると、結果のLLRは同様に、モデルをynから性別を予測するか、ynを性別から予測するように設定したかによって異なります。 これらの違いが生じている理由と最も合理的に進む方法についての提案はありますか?

2
二項回帰とモデリング戦略の議論
今日、私は二項/ロジスティック回帰について質問を受けました。これは、私の部門のグループが行ってコメントを求めている分析に基づいています。匿名性を保護するために以下の例を作成しましたが、彼らはその反応に熱心でした。 まず、分析は単純な1または0の二項応答(たとえば、ある繁殖シーズンから次の繁殖シーズンまでの生存率)で始まり、目標はこの応答をいくつかの共変量の関数としてモデル化することでした。 ただし、一部の共変量の複数の測定値は、一部の個人では利用可能でしたが、他の個人では利用できませんでした。たとえば、変数xが分娩中の代謝率の測定値であり、個体の子孫の数が異なると想像してください(変数xは、個体Aでは3回、個体Bでは1回だけ測定されました)。この不均衡は、研究者自身のサンプリング戦略によるものではなく、彼らがサンプリングしていた母集団の特徴を反映しています。一部の個体は他の個体より多くの子孫を持っています。 これらのイベントの間隔が非常に短いため、労働イベント間の2項の0 \ 1応答を測定することは不可能であったことも指摘しておきます。繰り返しになりますが、問題の種は繁殖期が短いが、シーズン中に複数の子孫を産むことができると想像してください。 研究者たちは、変数xの平均を1つの共変量として使用し、個人が出産した子孫の数を別の共変量として使用するモデルを実行することを選択しました。 今、私はいくつかの理由でこのアプローチに熱心ではありませんでした 1)xの平均を取ることは、xの個体内変動の情報を失うことを意味します。 2)平均はそれ自体が統計であるため、モデルに入れることにより、統計に関する統計を実行することになります。 3)モデルには個体の子孫の数が含まれますが、変数xの平均の計算にも使用されます。これは問題を引き起こす可能性があると思います。 それで、私の質問は、人々がこのタイプのデータをどのようにモデル化しようとするのでしょうか? 現時点では、おそらく、子孫が1人の個体と、子孫が2人の個体に対して別々のモデルを実行します。また、変数xの平均を使用せず、各出生の生データのみを使用しますが、これもはるかに良いと確信していません。 お時間をいただきありがとうございます (PS:長い質問であることをお詫びします。例が明確であることを願っています)

2
ランダムなサンプルから取得したデータの精度はどのくらいですか?
私は統計の初心者なので、ここで誤った仮定をした場合は教えてください。 人の人口がありNます。(たとえば、N1,000,000にすることができます。)一部の人々は赤毛です。私nは人のサンプル(たとえば10人)を取り上げ、そのjうちの1人が赤毛であることを見つけます。 人口の赤毛の一般的な割合について何を言えますか?j/nつまり、私の最良の近似はおそらくですが、その近似の標準偏差はどうなりますか? ちなみに、これの受け入れられた用語は何ですか?

2
電球色問題
まず、次の小さな問題をご覧ください。 2つの区別できない電球AとBがあります。Aは、確率.8で赤色のライトを、確率.2で青色のライトを点滅させます。B .2と青.8の赤。これで.5確率で、AまたはBのいずれかが表示されます。電球の色を観察して、どの電球であるかを正確に推測する(正しい推測の確率を最大にする)必要があります。ただし、観察を始める前に、それを何回観察するかを決定する必要があります(たとえば、n回、それからn回点滅して観察して推測します)。フラッシュが独立しているとします。 直観的には、観察が多いほど、可能性は高くなると思います。奇妙なことに、n = 2はn = 1を改善せず、n = 4はn = 3を改善しないことを示すのは簡単な計算です。私はさらに進めませんでしたが、n = 2kはn = 2k-1を改善しないと推測します。一般的なケースでは証明できません。しかし、それは本当ですか?もしそうなら、どのように結果を直感的に理解できますか?

1
比率の標本標準偏差の標準誤差
私は最近、ゲルマンとヒルの「回帰とマルチレベル/階層モデルを使用したデータ分析」を読み始めましたが、質問はそれに基づいています。 サンプルには、比率に関する6つの観測値が含まれています。 p1,p2,…,p6p1,p2,…,p6p_{1}, p_{2}, \dots, p_{6} 各 pipip_{i} 意味がある πiπi\pi_{i} と分散 πi(1−πi)niπi(1−πi)ni\frac{\pi_{i}(1-\pi_{i})}{n_i}、 どこ ninin_{i} 比率を計算するために使用される観測値の数です pipip_{i}。 テスト統計は Ti=Ti=T_{i} = これらの比率のサンプル標準偏差。 この本は、6つの比率の標本分散の期待値は、 p1,p2,…,p6p1,p2,…,p6p_{1}, p_{2}, \dots, p_{6}、 (1/6)∑6i=1πi(1−πi)/ni(1/6)∑i=16πi(1−πi)/ni(1/6)\sum_{i=1}^{6} \pi_{i}(1-\pi_{i})/n_{i}。私はこのすべてを理解しています。 知りたいのは TiTiT_{i}とその分散?誰かがそれを教えてくれたり、この情報が含まれている本や記事に案内してくれたら幸いです。 トンありがとう。

1
比率の非対称信頼区間を報告する方法は?
私はprop.test()、Rを使用して、毎年孵化した卵の数からヒナの割合を計算しました。それにより、ヒナの割合だけでなく、95%信頼区間も得られることがわかります。これは、私が求めているものです。このサイトの別の質問から優れた情報をここで読んだので、95%のCIに対称性がない理由を理解しました。 しかし、これを論文でどのように報告すればよいですか? 私は人々が値を38%(±0.2%)と報告するのを見てきましたが、括弧内の値は95%CIであることが示されています。明らかに、これは非対称CIでは機能しません。これらの場合、上限値と下限値を報告する必要がありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.