統計とビッグデータ generalized-linear-model

1

次の一般化線形モデルがあります。オブジェクトglmDVは、試行全体に対する成功の割合としてモデル化されます。オブジェクトx_iは連続変数です。これは数学表記ではどのように見えますか？ winp.glm = glm(glmDV ~ x1 + x2 + x3 + x4 + x5 + x6 + x7, data=myData, family=binomial("logit"))

8 r generalized-linear-model logit notation

1

負の二項回帰モデルのなげなわ

とにかく、Rで負の二項回帰を使用してLASSOを実行できますか？データが分散しすぎてポアソン回帰を適用できないため、データセットで負の二項回帰を実行しています。その間、多重共線性の問題にも直面しています。私はすでにで使用しようとしglmnetましたfamily = poissonが、データはあまりうまく適合していません（アルファ= 0とアルファ= 1の両方）...この大きなデータの混乱を分析するために何をすべきか正直にわかりません：/ ありがとうございました編集：これは負の二項適合の分散共分散表です 8.392729e+18 1.239178e+06 -3.624090e+05 1.896258e+17 -3.702521e+17 1.239178e+06 1.119052e-04 5.201989e-06 -1.877590e+05 -2.558095e+05 -3.624090e+05 5.201989e-06 5.179343e-06 -8.021543e+04 -1.436381e+05 1.896258e+17 -1.877590e+05 -8.021543e+04 2.193290e+17 6.413947e+16 -3.702521e+17 -2.558095e+05 -1.436381e+05 6.413947e+16 2.142183e+17

8 r regression generalized-linear-model

1

逸脱vsピアソン適合度

負の二項回帰（負の二項GLM）を使用してモデルを作成しようとしています。サンプルサイズが比較的小さく（300を超える）、データがスケーリングされていません。適合度を測定するには2つの方法があることに気付きました。1つは逸脱度であり、もう1つはピアソン統計です。使用する適合度の測定値をどのように決定できますか？適合度測定を選択する際に検討できる基準はありますか？

8 regression generalized-linear-model chi-squared deviance

1

bayesglmを使用する理由

私の全体的な質問は次のとおりです。なぜbayesglm他の分類方法の代わりに使用するのですか？注意：私は予測だけに興味があります。私はまともな量のデータを持っています（〜100,000 obs）。サンプルサイズは、通常のロジスティック回帰のパラメーターが正規分布（CLT）になるのに十分な大きさだと思います。事前情報を指定すると何が得られますか？私の直感は、それが小さなデータセットに対してのみ問題になるということですが、私には理論的または適用された証拠はありません。

8 bayesian generalized-linear-model

1

一般化線形モデルは一般線形モデルをどのように一般化しますか？

ウィキペディアから一般線形モデル（GLM）は統計線形モデルです。これは1 と書くことができます。Y = X B + U、Y=XB+U, \mathbf{Y} = \mathbf{X}\mathbf{B} + \mathbf{U}, ここで、YYYは一連の多変量測定の行列、バツXXは設計行列の可能性がある行列、BBBは通常推定されるパラメーターを含む行列であり、UUUはエラーまたはノイズを含む行列。エラーは通常、多変量正規分布に従うと想定されます。それは言うエラーが多変量正規分布に従わない場合は、一般化線形モデルを使用して、YYYおよびに関する仮定を緩和できUUUます。一般化線形モデルが一般線形モデルのYYYとに関する仮定をどのように緩和するのかと思っていましたかUUU？私は彼らの別の関係を反対方向に理解できることに注意してください：一般的な線形モデルは、アイデンティティリンクを持つ一般化された線形モデルの場合と見なすことができます。しかし、これが私の質問に役立つとは思えません。

8 regression generalized-linear-model assumptions

3

SPSSを使用した2x3混合設計ANOVAの事後テスト？

実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group（コントロール、実験）、time（最初、2、3）、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です！記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。どう思いますか？どちらが正しい方法でしょうか？

8 anova mixed-model spss post-hoc bonferroni time-series unevenly-spaced-time-series classification normal-distribution discriminant-analysis probability normal-distribution estimation sampling classification svm terminology pivot-table random-generation self-study estimation sampling estimation categorical-data maximum-likelihood excel least-squares instrumental-variables 2sls total-least-squares correlation self-study variance unbiased-estimator bayesian mixed-model ancova statistical-significance references p-value fishers-exact probability monte-carlo particle-filter logistic predictive-models modeling interaction survey hypothesis-testing multiple-regression regression variance data-transformation residuals minitab r time-series forecasting arima garch correlation estimation least-squares bias pca predictive-models genetics sem partial-least-squares nonparametric ordinal-data wilcoxon-mann-whitney bonferroni wilcoxon-signed-rank traminer regression econometrics standard-error robust misspecification r probability logistic generalized-linear-model r-squared effect-size gee ordered-logit bayesian classification svm kernel-trick nonlinear bayesian pca dimensionality-reduction eigenvalues probability distributions mathematical-statistics estimation nonparametric kernel-smoothing expected-value filter mse time-series correlation data-visualization clustering estimation predictive-models recommender-system sparse hypothesis-testing data-transformation parametric probability summations correlation pearson-r spearman-rho bayesian replicability dimensionality-reduction discriminant-analysis outliers weka

3

二項回帰漸近線

二項ロジスティック回帰は、1と0の上限と下限の漸近線をそれぞれ持っています。ただし、精度データ（例として）には、1や0とは大きく異なる上限と下限の漸近線がある場合があります。これに対する3つの解決策が考えられます。関心のある領域内でうまく適合している場合は、心配する必要はありません。うまくフィットしない場合：サンプルの正しい応答の最小数と最大数が0と1の比率になるようにデータを変換します（たとえば0と0.15ではなく）。または非線形回帰を使用して、漸近線を指定するか、フィッターに代行させることができます。オプション1と2は、主に単純化の理由から、オプション3よりも優先されるようです。この場合、オプション3は、より多くの情報を提供できるため、おそらくより良いオプションでしょうか。編集ここに例があります。精度の可能な正しい合計は100ですが、この場合の最大精度は〜15です。 accuracy <- c(0,0,0,0,0,1,3,5,9,13,14,15,14,15,16,15,14,14,15) x<-1:length(accuracy) glmx<-glm(cbind(accuracy, 100-accuracy) ~ x, family=binomial) ndf<- data.frame(x=x) ndf$fit<-predict(glmx, newdata=ndf, type="response") plot(accuracy/100 ~ x) with(ndf, lines(fit ~ x)) オプション2（コメントに従って、私の意味を明確にするため）がモデルになります glmx2<-glm(cbind(accuracy, 16-accuracy) ~ x, family=binomial) オプション3（完全を期すため）は次のようなものです。 fitnls<-nls(accuracy ~ upAsym + (y0 - upAsym)/(1 + (x/midPoint)^slope), start = list("upAsym" = max(accuracy), …

8 binomial generalized-linear-model

1

ポアソン分布のロバストな推定

ポアソン分布からのものであると想定される一連の数値があります。セットにはいくつかの外れ値もあり、そのため、最尤推定値は悪影響を受けます。このような状況では、堅牢な推定手順が役立つと聞きました。誰でもこれを行う方法を説明できますか？私は統計学の学生ではありません。 glmrobR の関数がこれに使用できることがわかりました。（私はRにかなり新しいです）。しかし、マニュアルページを読んだにもかかわらず、それをどのように使用するのか理解できませんでした。特にforumula、glmrob関数の最初の引数であるaを取得する方法を理解できません。ありがとう。

8 r estimation poisson-distribution generalized-linear-model robust

3

生態学者はアークサインがアシニンであることを知らなかった唯一の人ですか？

割合、比率、および割合のデータは、生態学で非常に一般的です（たとえば、受粉した花の％、男性：女性の性比、処理に対する死亡率％、草食動物が食べた葉の％）。最近、一部の応用統計学者が「エコロジー」というタイトルのジャーナルエコロジーで記事を発表しました。「アークサインは異常です：エコロジーにおける比率の分析」。彼らは、Zarの "Biostatistical Analysis"やSokalやRohlfの "Biometry"（両方とも第3版または第4版）のような長期実行テキストによってアークサイン変換が促進されたが、この手法は一般化線形モデルとより優れたコンピューティングによって時代遅れになっていると指摘しました。：アークサイン平方根変換は、生態学の比例データを分析するときの標準的な手順であり、2項および非2項の応答変数を含むデータセットに適用されます。ここでは、どちらの状況でもアークサイン変換を使用しないでください。二項データの場合、ロジスティック回帰は、変換されたデータの分析よりも解釈可能性が高く、検出力が高くなります。[...]非二項データの場合、アークサイン変換は、解釈可能性の理由から、および無意味な予測を生成する可能性があるため、望ましくありません。ロジット変換は、これらの問題に対処するための代替アプローチとして提案されています。他の分野（精神？医学？）でどのくらい一般的な比率データがあるのかと思っていました。アークサインはまだ他の分野で一般的に使用されているのですか、それとも生態学者はこの（または他の）時代遅れの、または最適な手法よりも使用が例外的ですか？より高度な技術を使用する必要性を強調する他の分野の論文はありますか？

8 regression anova data-transformation generalized-linear-model

2

プロビットとロジット（および一般的なGLM）の予測の信頼度と予測間隔の導出

線形モデルの予測区間の導出は非常に簡単です。線形モデルの予測限界の式を取得します。自信と導出する方法を予測区間をするために当てはめ値（一般的にとGLMS）ロジットとプロビット回帰の？

8 confidence-interval generalized-linear-model logit prediction-interval probit

2

GLMの残差はどこにありますか？

私は今、標準モデルに続いてGLMに移行しています。標準モデルでは、 y = Xb + epsilon また、イプシロンは正規分布であると想定されます。つまり、 y - Xb = epsilon 次に、正規性の仮定を前提として、適切なノルムを使用してlhsを最小化できます。 GLMでは、これらの残差はどこにも見られないので、残差の仮定は何ですか？つまり、GLMを当てはめ、残差を決定するとき、分布の仮定をどのようにチェックしますか？qqplot？何に対して？通常の分位？または、選択した分布の分位点ですか？私が理解しているGLM： mu = Xb, mu = Ey, y follows some non-Gaussian distribution.

8 generalized-linear-model residuals

1

ロジスティック回帰は「セミパラメトリック」モデルですか？

最近、質問の回答に「セミパラメトリック」という用語が含まれていますが、この用語の意味がよくわかりません。ウィキペディアは言う統計では、セミパラメトリックモデルは、パラメトリックコンポーネントとノンパラメトリックコンポーネントを持つ統計モデルです。また、例としてコックス比例ハザードモデルを示します。 Cox比例ハザードモデルとロジスティック回帰は非常に似ていると思いますが、なぜ1つはセミパラメトリックであるが、もう1つではないと言うのですか？ところで私はこの答えを見つけました、GLMはセミパラメトリックモデルではないと言います。

8 logistic generalized-linear-model nonparametric parametric

2

ロジスティック回帰BIC：正しいNは何ですか？

TL; DR：ロジスティック回帰にBICのために正しい、凝集二項またはベルヌーイ？NNNNNN 最下部の更新ロジスティック回帰を適用するデータセットがあるとします。例として、参加者がそれぞれm = 100のj=5j=5j=5グループがm=100m=100m=100、合計n=500n=500n=500であると想定します。結果は0または1です。たとえば、次のデータセット（Rコード）： library(dplyr) library(tidyr) set.seed(45) d <- tibble(y = rbinom(500, 1, .5), x = factor(rep(LETTERS[1:5], each = 100))) これを表すには2つの方法があります。上記のとおり、すべての観測をベルヌーイ確率変数として扱うか、グループ内の観測を集計して各観測を二項として扱います。データセットの行数は、最初のインスタンスでは500、2番目のインスタンスでは5になります。集約されたデータセットを構築できます： d %>% group_by(x, y) %>% summarise(n = n()) %>% spread(y, n) %>% rename(f = `0`, s = `1`) %>% mutate(n = s + f) -> d_agg …

7 r logistic generalized-linear-model model-comparison bic

2

変量効果を含む場合と含まない場合の二項回帰の推定値の大きな違い

2つのグループの学生の平均スコアを推定しようとしています。私は二項回帰モデルを使用しています。これtotal_ansは、回答した質問の合計であり、生徒によって異なる場合があります。モデル1は直接推定 model <- glm(cbind(total_correct, total_ans-total_correct) ~ student_type,family= binomial, data = df) Call: glm(formula = cbind(total_correct, total_ans - total_correct) ~ student_type, family = binomial, data = df) Coefficients: (Intercept) student_group_2 -1.9684 0.2139 Degrees of Freedom: 1552 Total (i.e. Null); 1551 Residual Null Deviance: 1480 Residual Deviance: 1477 AIC: 1764 lsmeans(model,~ …

7 generalized-linear-model lme4-nlme random-effects-model lsmeans

1

glm（）がリンクスケールの推定値と標準エラーを提供するのはなぜですか？

Rでは、誰かが最近ここで私に明らかにしたように、によって推定されたパラメーターglm()とその標準誤差の両方がリンクスケールで提供されます。同じスケールでパラメーターとその標準誤差の両方を提供することは理にかなっていますが、それでは、データの元のスケールで両方を表示してみませんか？ほとんどの人は元のスケールでの見積もりに興味があり、ほとんどの場合それらを逆変換すると思います。この質問へのコメントは、パラメーター推定値とその標準誤差を逆変換する方法に関する質問に対応していますが、そのような推定値が元のスケールではなくリンクスケールの関数によって提供される理由については、まだ知りたくありませんsummary()。

7 r generalized-linear-model standard-error

タグ付けされた質問 「generalized-linear-model」

タグ付けされた質問「generalized-linear-model」