統計とビッグデータ generalized-linear-model

10

違いは何ですかロジットとプロビットモデルは？ここで、ロジスティック回帰を使用するタイミングと、Probitを使用するタイミングを知りたいと思っています。 Rを使用して定義している文献があれば、それも参考になります。

299 r generalized-linear-model logistic probit link-function

4

結果がカウント変数である回帰の場合、どの診断プロット（およびおそらく正式なテスト）が最も有益だと思いますか？特に、ポアソンモデルと負の二項モデル、およびそれぞれのゼロ膨張モデルとハードルモデルに興味があります。私が見つけた情報源のほとんどは、これらのプロットがどのように「見える」べきかについての議論なしに、単純に残差対適合値をプロットします。知恵と参考文献は大歓迎です。関連する場合、なぜこれを尋ねているのかについてのバックストーリーは、私の別の質問です。関連する議論： glmモデルの残差診断プロットを解釈しますか？一般化線形モデルの仮定 GLM-診断とどのファミリー

88 generalized-linear-model residuals negative-binomial zero-inflation poisson-regression

4

ガンマGLMを使用する場合

ガンマ分布はかなり広い範囲の形状をとることができ、その2つのパラメーターを介した平均と分散の間のリンクを考えると、非負データの不均一分散に対処するのに適しているようです。 WLSまたは何らかの不均一分散一貫性のあるVCV推定器を使用しないでください。日常的な非負のデータモデリングにもっと使用しますが、それを使用する人は誰も知りません。正式な教室で学んだことはなく、読んだ文献では決して使用していません。「ガンマGLMの実際的な使用」のようなものをGoogleで検索するたびに、ポアソンイベント間の待機時間に使用するようにアドバイスします。OK。しかし、それは制限的なようであり、その唯一の使用法ではありません。単純に言えば、ガンマGLMは、ガンマの柔軟性を考慮すると、非負データをモデル化するための比較的仮定の軽い手段のようです。もちろん、他のモデルと同様にQQプロットと残差プロットを確認する必要があります。しかし、私が見逃している深刻な欠点はありますか？「単にOLSを実行する」人々へのコミュニケーションを超えて？

88 generalized-linear-model gamma-distribution

3

例：バイナリ結果にglmnetを使用したLASSO回帰

私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

5

段階的回帰の最新の簡単に使用できる代替手段は何ですか？

約30の独立変数を持つデータセットがあり、それらと従属変数との関係を調べるために一般化線形モデル（GLM）を構築したいと思います。この状況で教えられた方法である段階的回帰は、現在統計的な罪と見なされていることを認識しています。この状況では、どのような最新のモデル選択方法を使用する必要がありますか？

76 regression generalized-linear-model model-selection stepwise-regression

4

GLMの「リンク機能」と「正規リンク機能」の違いは何ですか

「リンク関数」と「標準リンク関数」という用語の違いは何ですか？また、一方を他方より使用する（理論的な）利点はありますか？たとえば、バイナリ応答変数は、logitやprobitなどの多くのリンク関数を使用してモデル化できます。ただし、ここでのロジットは「標準的な」リンク関数と見なされます。

65 logistic generalized-linear-model link-function

1

ポアソン回帰で係数を解釈する方法は？

ポアソン回帰の主な効果（ダミーコード化された因子の係数）をどのように解釈できますか？次の例を想定します。 treatment <- factor(rep(c(1, 2), c(43, 41)), levels = c(1, 2), labels = c("placebo", "treated")) improved <- factor(rep(c(1, 2, 3, 1, 2, 3), c(29, 7, 7, 13, 7, 21)), levels = c(1, 2, 3), labels = c("none", "some", "marked")) numberofdrugs <- rpois(84, 10) + 1 healthvalue <- rpois(84, 5) …

64 r generalized-linear-model interpretation poisson-distribution regression-coefficients

3

ロジスティック回帰の残差はどういう意味ですか？

この質問に答える際に、 John Christieは、残差を評価することによりロジスティック回帰モデルの適合性を評価することを提案しました。OLSで残差を解釈する方法に精通しています。それらはDVと同じスケールであり、yとモデルによって予測されたyの差は非常に明確です。ただし、ロジスティック回帰では、残差がロジスティック回帰で何を意味するのかわからなかったため、過去にAICなどのモデル近似の推定値を調べてきました。見た後Rのヘルプファイル、私はRで利用できるGLM残差の5種類があることがわかり少しc("deviance", "pearson", "working","response", "partial")。ヘルプファイルは以下を参照します。 Davison、ACおよびSnell、EJ（1991）残差および診断。In：統計理論とモデリング。デイビッド・コックスS、FRS編ヒンクリー、DV、リード、N。、スネル、EJ、チャップマン＆ホール。私はそのコピーを持っていません。これらの各タイプの解釈方法を説明する簡単な方法はありますか？ロジスティックコンテキストでは、残差の二乗和がモデルの適合性の有意義な尺度を提供しますか、それとも情報量基準の方が良いでしょうか？

62 r logistic generalized-linear-model residuals aic

1

平方根変換がカウントデータに推奨されるのはなぜですか？

カウントデータがある場合は、平方根を取ることをお勧めします。（CVのいくつかの例については、ここで@HarveyMotulskyの答え、またはここで@whuberの答えを参照してください。）一方、ポアソンとして分布した応答変数を使用して一般化線形モデルを近似する場合、ログは正規リンクです。これは、応答データのログ変換を行うようなものです（より正確には、応答分布を制御するパラメーターログ変換を行うことです）。したがって、これら2つの間には緊張があります。 λλ\lambda この（明らかな）矛盾をどのように調整しますか？平方根が対数よりも優れているのはなぜですか？

57 generalized-linear-model data-transformation poisson-distribution count-data variance-stabilizing

4

ログ変換された応答変数のLMとGLMの選択

一般化線形モデル（GLM）対線形モデル（LM）を使用する背後にある哲学を理解しようとしています。以下にサンプルデータセットを作成しました。 log(y)=x+εlog⁡(y)=x+ε\log(y) = x + \varepsilon この例には、yの大きさの関数としての誤差がないため、対数変換されたyの線形モデルが最適であると想定します。以下の例では、これは実際にそうです（私は思う）-ログ変換されたデータのLMのAICが最も低いからです。対数リンク関数を使用したガンマ分布GLMのAICは、より低い二乗和（SS）を持ちますが、自由度を追加するとAICがわずかに高くなります。ガウス分布のAICが非常に高いことに驚かされました（SSはモデルの中で最低ですが）。εε\varepsilonyyy GLMモデルにアプローチするタイミングについてアドバイスをもらいたいと思います。つまり、LMモデルの近似残差で、別の分布がより適切であることを確認する必要があるのでしょうか。また、適切なディストリビューションファミリを選択するには、どのように進める必要がありますか。あなたの助けに前もって感謝します。 [編集]：対数変換線形モデルのSSが対数リンク機能を備えたGLMモデルに匹敵するように、要約統計を調整しました。統計のグラフが表示されます。例 set.seed(1111) n <- 1000 y <- rnorm(n, mean=0, sd=1) y <- exp(y) hist(y, n=20) hist(log(y), n=20) x <- log(y) - rnorm(n, mean=0, sd=1) hist(x, n=20) df <- data.frame(y=y, x=x) df2 <- data.frame(x=seq(from=min(df$x), to=max(df$x),,100)) #models mod.name <- "LM" assign(mod.name, lm(y …

55 r generalized-linear-model linear-model gamma-distribution link-function

9

高度な統計図書の推奨事項

このサイトには、入門統計と機械学習に関する本の推奨事項に関するいくつかのスレッドがありますが、優先順位の順に、最尤、一般化線形モデル、主成分分析、非線形モデルなど、高度な統計に関するテキストを探しています。AC Davisonによる統計モデルを試しましたが、率直に言って、2つの章の後にそれを書き留めなければなりませんでした。テキストはその範囲と数学的扱いにおいて百科事典ですが、実務家として、私は最初に直観を理解することによって主題にアプローチするのが好きで、それから数学的背景を掘り下げます。これらは、教育的価値のために私が傑出していると考えるいくつかのテキストです。私が言及したより高度な主題に相当するものを見つけたいと思います。 Statistics、D。Freedman、R。Pisani、R。Purves。予測：メソッドとアプリケーション、R。Hyndman et al。多重回帰とその先、TZキース現代の統計的手法の適用、Rand R. Wilcox Rのアプリケーションを使用した統計学習の概要-（PDFリリース版）、Gareth James、Daniela Witten、Trevor Hastie、Robert Tibshirani 統計学習の要素：データマイニング、推論、および予測。-（PDFリリース版）、Hastie、Tibshirani、Friedman（2009）

55 generalized-linear-model pca maximum-likelihood references saddlepoint-approximation

1

ロジスティック回帰モデルの近似から予測値（Y = 1または0）を取得する

クラスのオブジェクトglm（ロジスティック回帰モデルに対応）がありpredict.glm、引数type="response"を使用して与えられた予測確率をバイナリ応答、つまりまたはY = 0に変換したいとします。Rでこれを行う最も速く、最も標準的な方法は何ですか？Y= 1Y=1Y=1Y= 0Y=0Y=0 、再び、私の知る一方でpredict.glm、私は場所を正確にカットオフ値を知らない住んでいる-と私は、これはここに私のメインのつまずきであると思います。P（Y私= 1 | バツ^私）P(Yi=1|X^i)P(Y_i=1|\hat X_{i})

50 r generalized-linear-model logistic

4

回帰、t検定、ANOVAは、一般的な線形モデルのすべてのバージョンとはどうですか？

同じ基本的な統計手法のすべてのバージョンはどうですか？

49 regression self-study anova generalized-linear-model t-test

2

GLM Rの残差とヌル逸脱の解釈

RのGLMのヌルと残差の逸脱をどのように解釈しますか？たとえば、AICは小さいほど良いと言います。デビアンスについても同様の迅速な解釈はありますか？ヌル偏差：1077自由度で1146.1残留偏差：1099自由度で4589.4 AIC：11089

47 generalized-linear-model deviance

3

対数変換応答を伴う線形モデルと対数リンクを伴う一般化線形モデル

で、この論文著者が書いた「一般化線形モデルAPPLIED TO医療データの中から選択する」というタイトル：一般化線形モデルでは、応答自体を変換する代わりに、リンク関数によって平均が変換されます。変換の2つの方法は、まったく異なる結果につながる可能性があります。たとえば、対数変換された応答の平均は、平均応答の対数と同じではありません。一般に、前者は簡単に平均応答に変換できません。したがって、平均値を変換すると、特に平均パラメーターが測定された応答と同じスケールのままであるという点で、結果をより簡単に解釈できることがよくあります。彼らは、対数変換応答を持つ線形モデル（LM）ではなく、対数リンクを持つ一般化線形モデル（GLM）のフィッティングを勧めているようです。私はこのアプローチの利点を理解していませんが、私には非常に珍しいようです。応答変数は対数正規分布に見えます。どちらのアプローチでも、係数と標準誤差の点で同様の結果が得られます。それでも私は不思議：変数は対数正規分布を持っている場合ではない対数変換変数の平均値よりも好ましい平均形質転換されていない変数の対数平均値は、正規分布の自然の概要、およびログですと、 -変換された変数は正規分布していますが、変数自体はそうではありませんか？

46 generalized-linear-model model-selection lognormal

タグ付けされた質問 「generalized-linear-model」

タグ付けされた質問「generalized-linear-model」