タグ付けされた質問 「negative-binomial」

指定された数の失敗が発生するまで の試行の成功数をモデル化した離散的な一変量分布。 Bernoulli(p

4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

3
負の二項GLM対カウントデータのログ変換:タイプIエラー率の増加
あなたの何人かはこの素晴らしい論文を読んだかもしれません: O'Hara RB、Kotze DJ(2010)カウントデータをログ変換しません。生態学と進化の方法1:118–122。クリック。 私の研究分野(生態毒性学)では、再現性の低い実験を扱っており、GLMは広く使用されていません。そこで、O'Hara&Kotze(2010)と同様のシミュレーションを行いましたが、生態毒性データを模倣しました。 電力シミュレーション: 1つのコントロールグループ()と5つの治療グループ()を使用した要因計画のデータをシミュレートしました。治療1の存在量は対照()と同一であり、治療2-5の存在量は対照の存在量の半分()でした。シミュレーションでは、サンプルサイズ(3,6,9,12)とコントロールグループの量(2、4、8、...、1024)を変化させました。豊度は、固定分散パラメーター()を持つ負の二項分布から引き出されました。100のデータセットが生成され、負の二項GLMとガウスGLM +対数変換データを使用して分析されました。μ 1 - 5 μ 1 = μ C μ 2 - 5 = 0.5 μ C θ = 3.91μcμc\mu_cμ1 − 5μ1−5\mu_{1-5}μ1= μcμ1=μc\mu_1 = \mu_cμ2 − 5= 0.5 μcμ2−5=0.5μc\mu_{2-5} = 0.5 \mu_cθ = 3.91θ=3.91\theta = 3.91 結果は予想通りです。GLMのパワーは、特に多くの動物がサンプリングされていない場合に大きくなります。 コードはこちらです。 タイプIエラー: 次に、タイプ1のエラーを見ました。シミュレーションは上記のように行われましたが、すべてのグループは同じ量()。μc= μ1 − 5μc=μ1−5\mu_c …

2
負の二項分布変数の違いを説明する分布?
スケルラム分布はポアソン分布を持つ2つの変数の違いを説明しています。負の二項分布に従う変数間の違いを説明する同様の分布はありますか? 私のデータはポアソンプロセスによって生成されますが、かなりの量のノイズが含まれており、分布に過剰分散が生じています。したがって、負の二項(NB)分布を使用したデータのモデリングはうまく機能します。これらのNBデータセットの2つの違いをモデル化する場合、私のオプションは何ですか?役立つ場合は、2つのセットで同様の平均と分散を仮定します。

3
Nが成功するまでフリップをモデリングするにはどうすればよいですか?
あなたと私は、コインを投げて交代するゲームをすることにしました。最初に合計10個のヘッドをフリップしたプレーヤーがゲームに勝利します。当然、誰が先に行くべきかという議論があります。 このゲームのシミュレーションでは、最初に弾くプレーヤーのほうが2番目に弾くプレーヤーよりも6%多く勝ちます(最初のプレーヤーが約53%勝つ)。これを分析的にモデリングすることに興味があります。 これは二項確率変数ではありません。試行回数が固定されていないためです(誰かが10頭になるまで反転します)。これをどのようにモデル化できますか?負の二項分布ですか? 結果を再作成できるように、ここに私のpythonコードがあります: import numpy as np from numba import jit @jit def sim(N): P1_wins = 0 P2_wins = 0 for i in range(N): P1_heads = 0 P2_heads = 0 while True: P1_heads += np.random.randint(0,2) if P1_heads == 10: P1_wins+=1 break P2_heads+= np.random.randint(0,2) if P2_heads==10: P2_wins+=1 break return P1_wins/N, …

2
不可能な推定問題?
質問 負の二項(NB)分布の分散は、常にその平均よりも大きくなります。サンプルの平均がその分散よりも大きい場合、NBのパラメーターを最尤法またはモーメント推定で近似しようとすると失敗します(有限パラメーターの解はありません)。 ただし、NB分布から取得したサンプルの平均は分散よりも大きい可能性があります。Rの再現可能な例を次に示します。 set.seed(167) x = rnbinom(100, size=3.2, prob=.8); mean(x) # 0.82 var(x) # 0.8157576 NBは、パラメーターを推定できないサンプル(最尤法とモーメント法)を生成する確率がゼロではありません。 このサンプルに対して適切な推定値を提供できますか? すべてのサンプルに対して推定量が定義されていない場合、推定理論は何と言いますか? 答えについて @MarkRobinsonと@Yvesの答えは、パラメータ化が主要な問題であることを実感させました。NBの確率密度は、通常次のように記述されます。 P(X=k)=Γ(r+k)Γ(r)k!(1−p)rpkP(X=k)=Γ(r+k)Γ(r)k!(1−p)rpkP(X = k) = \frac{\Gamma(r+k)}{\Gamma(r)k!}(1-p)^rp^k または P(X=k)=Γ(r+k)Γ(r)k!(rr+m)r(mr+m)k.P(X=k)=Γ(r+k)Γ(r)k!(rr+m)r(mr+m)k.P(X = k) = \frac{\Gamma(r+k)}{\Gamma(r)k!} \left(\frac{r}{r+m}\right)^r \left(\frac{m}{r+m}\right)^k. 最初のパラメーター化では、サンプルの分散が平均よりも小さい場合、最尤推定値はであるため、について有用なことは言えません。2番目の場合、それはなので、合理的な推定値を与えることができます。最後に、@MarkRobinsonショーは、我々が使用して、無限の値の問題を解決することができることをの代わりに。(∞,0)(∞,0)(\infty, 0)ppp(∞,x¯)(∞,x¯)(\infty, \bar{x})mmmr1+rr1+r\frac{r}{1+r}rrr 結論として、この推定問題に根本的な問題はありませんが、サンプルごとにと意味のある解釈を常に行えるとは限りません。公平を期すために、両方の答えにアイデアがあります。私は@MarkRobinsonのそれを彼が与える補数の正しいものとして選んだ。rrrppp

2
離散分布を適合させてデータをカウントする方法は?
次のカウントデータのヒストグラムがあります。そして、離散分布をそれに当てはめたいと思います。これについてどうすればいいかわかりません。 最初に離散分布、たとえば負の二項分布をヒストグラムに重ね合わせて、離散分布のパラメーターを取得し、Kolmogorov–Smirnov検定を実行してp値を確認する必要がありますか? この方法が正しいかどうかはわかりません。 このような問題に取り組む一般的な方法はありますか? これは、カウントデータの度数分布表です。私の問題では、ゼロ以外のカウントのみに焦点を合わせています。 Counts: 1 2 3 4 5 6 7 9 10 Frequency: 3875 2454 921 192 37 11 1 1 2 更新:質問したい:Rのfitdistr関数を使用して、データを近似するためのパラメーターを取得しました。 fitdistr(abc[abc != 0], "Poisson") lambda 1.68147852 (0.01497921) 次に、ヒストグラムの上にポアソン分布の確率質量関数をプロットします。 ただし、ポアソン分布はカウントデータのモデル化に失敗したようです。何か私にできることはありますか?

3
Rのゼロ膨張負の二項混合効果モデル
Rでゼロ膨張した負の二項混合効果モデル推定を提供するようなパッケージはありますか? ということは: パッケージpsclの関数zeroinflのように、ゼロインフレの二項モデルを指定できるゼロインフレ: zeroinfl(y〜X | Z、dist = "negbin") ここで、Zはゼロインフレモデルの式です。 モデルのカウント部分の負の二項分布。 パッケージlme4の関数lmerと同様に指定されたランダム効果。 glmmADMBはそれをすべて実行できることを理解していますが、ゼロインフレーションの式を指定することはできません(これは単なる切片です。つまり、Zは1になります)。しかし、それをすべて実行できる他のパッケージはありますか? あなたの助けにとても感謝します!

4
DNA配列決定のための負の二項分布のフレーミング
負の二項分布は、バイオインフォマティクスのカウントデータ(具体的には、特定の実験からのゲノムの特定の領域内で予想されるシーケンスリードの数)の一般的なモデルになりました。説明は異なります: ポアソン分布のように機能するものの、追加のパラメーターがあり、必ずしも平均と等しくない分散で、真の分布をより自由にモデル化できるものとして説明する人もいます ポアソン分布の重み付き混合として説明する人もいます(ポアソンパラメーターにガンマ混合分布がある) 特定の数の失敗を見る前にベルヌーイ試行の成功の数をモデル化するような負の二項分布の伝統的な定義でこれらの理論を二乗する方法はありますか?それとも、ポアソン分布とガンマ混合分布の重み付き混合が負の二項分布と同じ確率質量関数を持っているという幸福な偶然と考えるべきでしょうか?

3
ポアソンは指数関数的であり、ガンマポアソンは何に対してですか?
ポアソン分布は単位時間あたりのイベントを測定でき、パラメーターはです。指数分布は、パラメーター使用して、次のイベントまでの時間を測定します。イベントまたは時間をモデル化する方が簡単かどうかに応じて、ある分布を別の分布に変換できます。λλ\lambda1λ1λ\frac{1}{\lambda} 現在、ガンマポアソンは、より大きな分散を持つ「ストレッチ」ポアソンです。ワイブル分布は、より大きな分散を持つ「ストレッチされた」指数関数です。しかし、これら2つはポアソンを指数関数に変換できるのと同じように、簡単に相互変換できますか? それとも、ガンマポアソン分布と組み合わせて使用​​するのに適した他の分布がありますか? ガンマポアソンは、負の二項分布、またはNBDとも呼ばれます。

4
カウントデータの適切なモデルを決定するための戦略
カウントデータで使用するモデルを決定するための適切な戦略は何ですか?マルチレベルモデルとしてモデル化する必要があるデータを数えていますが、これを行うための最良の方法はバグまたはMCMCglmmを使用することを(このサイトで)推奨されました。しかし、私はまだベイジアン統計について学ぼうとしています。最初にデータを一般化線形モデルとして適合させ、データのネスト構造を無視することを試みるべきだと思いました(期待することについて漠然としたアイデアを得ることができるように)。 データの約70%は0であり、平均に対する分散の比率は33です。そのため、データは非常に分散しています。 いくつかの異なるオプション(ポアソン、負の二項、クアッシ、ゼロ膨張モデルを含む)を試した後、結果に一貫性がほとんど見られません(すべてから変化することは重要であり、何も意味がない)。 インフレと過剰分散に基づいて、どのタイプのモデルを選択するかについて、情報に基づいた決定を下すにはどうすればよいですか?たとえば、どのようにクアッシポアソンが負の二項(またはその逆)よりも適切であると推測できますか?また、どちらを使用しても超過ゼロが適切に処理された(または処理されなかった)ことをどのように確認できますか?同様に、ゼロ膨張モデルが使用された場合、これ以上の過分散がないことをどのように評価しますか?または、ゼロ膨張ポアソンとゼロ膨張負の二項式の間でどのように決定する必要がありますか?

2
誰かがポアソンモデルに対して残差/ dfを1にすべきだと言ったとき、近似はどの程度ですか?
残留偏差を自由度で除算することで、ポアソンモデルの近似が過剰分散しているかどうかを確認するためのアドバイスを見てきました。結果の比率は「約1」になります。 問題は、「おおよそ」の範囲について話していることです。代替モデルの形態を検討するためにアラームを発動させるべき比率は何ですか?


1
カテゴリカルデータを使用した負の二項GLMからの.L&.Q出力の解釈
私は負の二項GLMを実行しただけで、これが出力です。 Call: glm.nb(formula = small ~ method + site + depth, data = size.dat, init.theta = 1.080668549, link = log) Deviance Residuals: Min 1Q Median 3Q Max -2.2452 -0.9973 -0.3028 0.3864 1.8727 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.6954 0.1152 14.720 < 2e-16 *** method.L -0.6828 0.1637 -4.171 …

2
summary.glm()の分散
私はglm.nbを実施しました glm1<-glm.nb(x~factor(group)) groupはカテゴリーで、xは計量変数です。結果の概要を取得しようとすると、summary()またはを使用するかどうかによって、わずかに異なる結果が得られsummary.glmます。summary(glm1)私にくれます ... Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.1044 0.1519 0.687 0.4921 factor(gruppe)2 0.1580 0.2117 0.746 0.4555 factor(gruppe)3 0.3531 0.2085 1.693 0.0904 . --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for Negative Binomial(0.7109) family taken to …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.