タグ付けされた質問 「overdispersion」

過剰分散とは、データに「あるべき」よりも大きな変動がある場合です。たとえば、カウントの分散は平均よりも大きいことがよくありますが、ポアソンの分散は平均と等しくなければなりません。

1
glmnetは過剰分散をどのように処理しますか?
カウントデータに対してテキストをモデル化する方法、特にこの機能を使用してlasso機能を削減する方法について質問があります。 オンライン記事がN個あり、各記事のページビュー数があるとします。記事ごとに1グラムと2グラムを抽出しましたが、1,2グラムに対して回帰を実行したいと思いました。特徴(1,2グラム)は観測数よりもはるかに多いため、なげなわは特徴の数を減らすための良い方法です。また、glmnetなげなわ分析を実行するのに本当に便利であることがわかりました。 しかし、ページビューのカウント数は、(分散>平均)overdispersedされていますが、glmnet提供していませんquasipoisson(明示的)またはnegative binomialが、poissonカウントデータについて。私が考えた解決策はlog transform、カウントデータ(社会科学者の間で一般的に使用される方法)であり、応答変数をほぼ正規分布に従うようにすることです。そのため、を使用して、ガウスファミリーでデータをモデル化できglmnetます。 だから私の質問は、そうすることは適切ですか?または、glmnetケースglmnetハンドルにpoissonを使用しますquasipoissonか?または、他のRパッケージがこの状況を処理しますか? どうもありがとうございました!

3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

1
ロジスティック回帰における過剰分散のテスト
R in Action(Kabacoff、2011年)は、ロジスティック回帰の過分散をテストするために次のルーチンを提案しています。 二項分布を使用してロジスティック回帰を近似します。 model_binom <- glm(Species=="versicolor" ~ Sepal.Width, family=binomial(), data=iris) 準二項分布を使用してロジスティック回帰を近似します。 model_overdispersed <- glm(Species=="versicolor" ~ Sepal.Width, family=quasibinomial(), data=iris) カイ二乗を使用して、過剰分散をテストします。 pchisq(summary(model_overdispersed)$dispersion * model_binom$df.residual, model_binom$df.residual, lower = F) # [1] 0.7949171 カイ二乗分布がここで過剰分散のテストに使用されている方法と理由を誰かが説明できますか?p値は0.79です。これは、過剰分散が二項分布モデルの問題ではないことをどのように示しますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.