統計とビッグデータ overdispersion

1

カウントデータに対してテキストをモデル化する方法、特にこの機能を使用してlasso機能を削減する方法について質問があります。オンライン記事がN個あり、各記事のページビュー数があるとします。記事ごとに1グラムと2グラムを抽出しましたが、1,2グラムに対して回帰を実行したいと思いました。特徴（1,2グラム）は観測数よりもはるかに多いため、なげなわは特徴の数を減らすための良い方法です。また、glmnetなげなわ分析を実行するのに本当に便利であることがわかりました。しかし、ページビューのカウント数は、（分散>平均）overdispersedされていますが、glmnet提供していませんquasipoisson（明示的）またはnegative binomialが、poissonカウントデータについて。私が考えた解決策はlog transform、カウントデータ（社会科学者の間で一般的に使用される方法）であり、応答変数をほぼ正規分布に従うようにすることです。そのため、を使用して、ガウスファミリーでデータをモデル化できglmnetます。だから私の質問は、そうすることは適切ですか？または、glmnetケースglmnetハンドルにpoissonを使用しますquasipoissonか？または、他のRパッケージがこの状況を処理しますか？どうもありがとうございました！

9 poisson-distribution lasso glmnet overdispersion penalized

3

SVDを実行して欠損値を代入する方法、具体例

SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか？数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください（つまり、数値に別の数値を掛けると答えが得られます）。次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103

8 r missing-data data-imputation svd sampling matlab mcmc importance-sampling predictive-models prediction algorithms graphical-model graph-theory r regression regression-coefficients r-squared r regression modeling confounding residuals fitting glmm zero-inflation overdispersion optimization curve-fitting regression time-series order-statistics bayesian prior uninformative-prior probability discrete-data kolmogorov-smirnov r data-visualization histogram dimensionality-reduction classification clustering accuracy semi-supervised labeling state-space-models t-test biostatistics paired-comparisons paired-data bioinformatics regression logistic multiple-regression mixed-model random-effects-model neural-networks error-propagation numerical-integration time-series missing-data data-imputation probability self-study combinatorics survival cox-model statistical-significance wilcoxon-mann-whitney hypothesis-testing distributions normal-distribution variance t-distribution probability simulation random-walk diffusion hypothesis-testing z-test hypothesis-testing data-transformation lognormal r regression agreement-statistics classification svm mixed-model non-independent observational-study goodness-of-fit residuals confirmatory-factor neural-networks deep-learning

1

ロジスティック回帰における過剰分散のテスト

R in Action（Kabacoff、2011年）は、ロジスティック回帰の過分散をテストするために次のルーチンを提案しています。二項分布を使用してロジスティック回帰を近似します。 model_binom <- glm(Species=="versicolor" ~ Sepal.Width, family=binomial(), data=iris) 準二項分布を使用してロジスティック回帰を近似します。 model_overdispersed <- glm(Species=="versicolor" ~ Sepal.Width, family=quasibinomial(), data=iris) カイ二乗を使用して、過剰分散をテストします。 pchisq(summary(model_overdispersed)$dispersion * model_binom$df.residual, model_binom$df.residual, lower = F) # [1] 0.7949171 カイ二乗分布がここで過剰分散のテストに使用されている方法と理由を誰かが説明できますか？p値は0.79です。これは、過剰分散が二項分布モデルの問題ではないことをどのように示しますか？

8 r regression distributions logistic overdispersion

タグ付けされた質問 「overdispersion」

タグ付けされた質問「overdispersion」