タグ付けされた質問 「generalized-linear-model」

「リンク関数」を介して非線形関係を可能にし、応答の分散を予測値に依存させることができる線形回帰の一般化。(通常の線形モデルを一般的な共分散構造と多変量応答に拡張する「一般線形モデル」と混同しないでください。)

1
Rのglmコマンドを数学表記に変換する
次の一般化線形モデルがあります。オブジェクトglmDVは、試行全体に対する成功の割合としてモデル化されます。オブジェクトx_iは連続変数です。 これは数学表記ではどのように見えますか? winp.glm = glm(glmDV ~ x1 + x2 + x3 + x4 + x5 + x6 + x7, data=myData, family=binomial("logit"))

1
負の二項回帰モデルのなげなわ
とにかく、Rで負の二項回帰を使用してLASSOを実行できますか?データが分散しすぎてポアソン回帰を適用できないため、データセットで負の二項回帰を実行しています。その間、多重共線性の問題にも直面しています。私はすでにで使用しようとしglmnetましたfamily = poissonが、データはあまりうまく適合していません(アルファ= 0とアルファ= 1の両方)...この大きなデータの混乱を分析するために何をすべきか正直にわかりません:/ ありがとうございました 編集:これは負の二項適合の分散共分散表です 8.392729e+18 1.239178e+06 -3.624090e+05 1.896258e+17 -3.702521e+17 1.239178e+06 1.119052e-04 5.201989e-06 -1.877590e+05 -2.558095e+05 -3.624090e+05 5.201989e-06 5.179343e-06 -8.021543e+04 -1.436381e+05 1.896258e+17 -1.877590e+05 -8.021543e+04 2.193290e+17 6.413947e+16 -3.702521e+17 -2.558095e+05 -1.436381e+05 6.413947e+16 2.142183e+17

1
逸脱vsピアソン適合度
負の二項回帰(負の二項GLM)を使用してモデルを作成しようとしています。サンプルサイズが比較的小さく(300を超える)、データがスケーリングされていません。適合度を測定するには2つの方法があることに気付きました。1つは逸脱度であり、もう1つはピアソン統計です。使用する適合度の測定値をどのように決定できますか?適合度測定を選択する際に検討できる基準はありますか?

1
bayesglmを使用する理由
私の全体的な質問は次のとおりです。なぜbayesglm他の分類方法の代わりに使用するのですか? 注意: 私は予測だけに興味があります。 私はまともな量のデータを持っています(〜100,000 obs)。 サンプルサイズは、通常のロジスティック回帰のパラメーターが正規分布(CLT)になるのに十分な大きさだと思います。事前情報を指定すると何が得られますか?私の直感は、それが小さなデータセットに対してのみ問題になるということですが、私には理論的または適用された証拠はありません。

1
一般化線形モデルは一般線形モデルをどのように一般化しますか?
ウィキペディアから 一般線形モデル(GLM)は統計線形モデルです。これは1 と書くことができます。Y = X B + U、Y=XB+U, \mathbf{Y} = \mathbf{X}\mathbf{B} + \mathbf{U}, ここで、YYYは一連の多変量測定の行列、バツXXは設計行列の可能性がある行列、BBBは通常推定されるパラメーターを含む行列であり、UUUはエラーまたはノイズを含む行列。エラーは通常、多変量正規分布に従うと想定されます。 それは言う エラーが多変量正規分布に従わない場合は、一般化線形モデルを使用して、YYYおよびに関する仮定を緩和できUUUます。 一般化線形モデルが一般線形モデルのYYYとに関する仮定をどのように緩和するのかと思っていましたかUUU? 私は彼らの別の関係を反対方向に理解できることに注意してください: 一般的な線形モデルは、アイデンティティリンクを持つ一般化された線形モデルの場合と見なすことができます。 しかし、これが私の質問に役立つとは思えません。

3
SPSSを使用した2x3混合設計ANOVAの事後テスト?
実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group(コントロール、実験)、time(最初、2、3)、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。 グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。 したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です! 記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。 インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。 どう思いますか?どちらが正しい方法でしょうか?
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 

3
二項回帰漸近線
二項ロジスティック回帰は、1と0の上限と下限の漸近線をそれぞれ持っています。ただし、精度データ(例として)には、1や0とは大きく異なる上限と下限の漸近線がある場合があります。これに対する3つの解決策が考えられます。 関心のある領域内でうまく適合している場合は、心配する必要はありません。うまくフィットしない場合: サンプルの正しい応答の最小数と最大数が0と1の比率になるようにデータを変換します(たとえば0と0.15ではなく)。 または 非線形回帰を使用して、漸近線を指定するか、フィッターに代行させることができます。 オプション1と2は、主に単純化の理由から、オプション3よりも優先されるようです。この場合、オプション3は、より多くの情報を提供できるため、おそらくより良いオプションでしょうか。 編集 ここに例があります。精度の可能な正しい合計は100ですが、この場合の最大精度は〜15です。 accuracy <- c(0,0,0,0,0,1,3,5,9,13,14,15,14,15,16,15,14,14,15) x<-1:length(accuracy) glmx<-glm(cbind(accuracy, 100-accuracy) ~ x, family=binomial) ndf<- data.frame(x=x) ndf$fit<-predict(glmx, newdata=ndf, type="response") plot(accuracy/100 ~ x) with(ndf, lines(fit ~ x)) オプション2(コメントに従って、私の意味を明確にするため)がモデルになります glmx2<-glm(cbind(accuracy, 16-accuracy) ~ x, family=binomial) オプション3(完全を期すため)は次のようなものです。 fitnls<-nls(accuracy ~ upAsym + (y0 - upAsym)/(1 + (x/midPoint)^slope), start = list("upAsym" = max(accuracy), …

1
ポアソン分布のロバストな推定
ポアソン分布からのものであると想定される一連の数値があります。セットにはいくつかの外れ値もあり、そのため、最尤推定値は悪影響を受けます。このような状況では、堅牢な推定手順が役立つと聞きました。誰でもこれを行う方法を説明できますか?私は統計学の学生ではありません。 glmrobR の関数がこれに使用できることがわかりました。(私はRにかなり新しいです)。しかし、マニュアルページを読んだにもかかわらず、それをどのように使用するのか理解できませんでした。特にforumula、glmrob関数の最初の引数であるaを取得する方法を理解できません。 ありがとう。

3
生態学者はアークサインがアシニンであることを知らなかった唯一の人ですか?
割合、比率、および割合のデータは、生態学で非常に一般的です(たとえば、受粉した花の%、男性:女性の性比、処理に対する死亡率%、草食動物が食べた葉の%)。最近、一部の応用統計学者が「エコロジー」というタイトルのジャーナルエコロジーで記事を発表しました。「アークサインは異常です:エコロジーにおける比率の分析」。彼らは、Zarの "Biostatistical Analysis"やSokalやRohlfの "Biometry"(両方とも第3版または第4版)のような長期実行テキストによってアークサイン変換が促進されたが、この手法は一般化線形モデルとより優れたコンピューティングによって時代遅れになっていると指摘しました。 : アークサイン平方根変換は、生態学の比例データを分析するときの標準的な手順であり、2項および非2項の応答変数を含むデータセットに適用されます。ここでは、どちらの状況でもアークサイン変換を使用しないでください。二項データの場合、ロジスティック回帰は、変換されたデータの分析よりも解釈可能性が高く、検出力が高くなります。[...]非二項データの場合、アークサイン変換は、解釈可能性の理由から、および無意味な予測を生成する可能性があるため、望ましくありません。ロジット変換は、これらの問題に対処するための代替アプローチとして提案されています。 他の分野(精神?医学?)でどのくらい一般的な比率データがあるのか​​と思っていました。アークサインはまだ他の分野で一般的に使用されているのですか、それとも生態学者はこの(または他の)時代遅れの、または最適な手法よりも使用が例外的ですか?より高度な技術を使用する必要性を強調する他の分野の論文はありますか?


2
GLMの残差はどこにありますか?
私は今、標準モデルに続いてGLMに移行しています。 標準モデルでは、 y = Xb + epsilon また、イプシロンは正規分布であると想定されます。つまり、 y - Xb = epsilon 次に、正規性の仮定を前提として、適切なノルムを使用してlhsを最小化できます。 GLMでは、これらの残差はどこにも見られないので、残差の仮定は何ですか?つまり、GLMを当てはめ、残差を決定するとき、分布の仮定をどのようにチェックしますか?qqplot?何に対して?通常の分位?または、選択した分布の分位点ですか? 私が理解しているGLM: mu = Xb, mu = Ey, y follows some non-Gaussian distribution.

1
ロジスティック回帰は「セミ​​パラメトリック」モデルですか?
最近、質問の回答に「セミパラメトリック」という用語が含まれていますが、この用語の意味がよくわかりません。 ウィキペディアは言う 統計では、セミパラメトリックモデルは、パラメトリックコンポーネントとノンパラメトリックコンポーネントを持つ統計モデルです。 また、例としてコックス比例ハザードモデルを示します。 Cox比例ハザードモデルとロジスティック回帰は非常に似ていると思いますが、なぜ1つはセミパラメトリックであるが、もう1つではないと言うのですか? ところで私はこの答えを見つけました、GLMはセミパラメトリックモデルではないと言います。

2
ロジスティック回帰BIC:正しいNは何ですか?
TL; DR:ロジスティック回帰にBICのために正しい、凝集二項またはベルヌーイ?NNNNNN 最下部の更新 ロジスティック回帰を適用するデータセットがあるとします。例として、参加者がそれぞれm = 100のj=5j=5j=5グループがm=100m=100m=100、合計n=500n=500n=500であると想定します。結果は0または1です。たとえば、次のデータセット(Rコード): library(dplyr) library(tidyr) set.seed(45) d <- tibble(y = rbinom(500, 1, .5), x = factor(rep(LETTERS[1:5], each = 100))) これを表すには2つの方法があります。上記のとおり、すべての観測をベルヌーイ確率変数として扱うか、グループ内の観測を集計して各観測を二項として扱います。データセットの行数は、最初のインスタンスでは500、2番目のインスタンスでは5になります。 集約されたデータセットを構築できます: d %>% group_by(x, y) %>% summarise(n = n()) %>% spread(y, n) %>% rename(f = `0`, s = `1`) %>% mutate(n = s + f) -> d_agg …

2
変量効果を含む場合と含まない場合の二項回帰の推定値の大きな違い
2つのグループの学生の平均スコアを推定しようとしています。私は二項回帰モデルを使用しています。これtotal_ansは、回答した質問の合計であり、生徒によって異なる場合があります。 モデル1は直接推定 model <- glm(cbind(total_correct, total_ans-total_correct) ~ student_type,family= binomial, data = df) Call: glm(formula = cbind(total_correct, total_ans - total_correct) ~ student_type, family = binomial, data = df) Coefficients: (Intercept) student_group_2 -1.9684 0.2139 Degrees of Freedom: 1552 Total (i.e. Null); 1551 Residual Null Deviance: 1480 Residual Deviance: 1477 AIC: 1764 lsmeans(model,~ …

1
glm()がリンクスケールの推定値と標準エラーを提供するのはなぜですか?
Rでは、誰かが最近ここで私に明らかにしたように、によって推定されたパラメーターglm()とその標準誤差の両方がリンクスケールで提供されます。同じスケールでパラメーターとその標準誤差の両方を提供することは理にかなっていますが、それでは、データの元のスケールで両方を表示してみませんか?ほとんどの人は元のスケールでの見積もりに興味があり、ほとんどの場合それらを逆変換すると思います。この質問へのコメントは、パラメーター推定値とその標準誤差を逆変換する方法に関する質問に対応していますが、そのような推定値が元のスケールではなくリンクスケールの関数によって提供される理由については、まだ知りたくありませんsummary()。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.