回答:
私は大きなデータセットを使用しています(機密情報なので、あまり共有できません)。
変数名も実際の値も使用せずに、実際のデータの一般的な特性の一部を含む小さなデータセットを作成することもできます。
そして、負の二項回帰が必要になるという結論に達しました。私は以前にglm回帰を行ったことがなく、仮定が何であるかについて明確な情報を見つけることができません。MLRでも同じですか?
明らかにない!応答が条件付きではなく、条件付きの負の二項式であると仮定していることは既に知っています。(いくつかの仮定は共有されています。例えば、独立。)
最初にGLMについてもっと一般的に話しましょう。
GLMには多重回帰が含まれますが、いくつかの方法で一般化されます:
1)応答の条件付き分布(従属変数)は、ポアソン分布、二項分布、ガンマ分布、正規分布、その他多数の分布を含む指数族からのものです。
2)平均応答は、リンク関数を介して予測変数(独立変数)に関連しています。分布の各ファミリには、関連付けられた正規リンク関数があります。たとえば、ポアソンの場合、正規リンクはlogです。正規リンクはほとんどの場合デフォルトですが、ほとんどのソフトウェアでは通常、各ディストリビューションの選択肢にいくつかの選択肢があります。二項式の場合、正準リンクはロジット(線形予測子はモデリング、成功の対数オッズ、または「1」)であり、ガンマの場合は正準リンクは逆ですが、どちらの場合も、他のリンク関数がよく使用されます。
あなたの応答をしたのであればとあなたの予測因子であったとあなたが、平均どのようにあなたの説明のために必要がある場合がありますログのリンクを持つポアソン回帰で、に関連しているさん:X 1 X 2 Y X
η ロググラムを(は「線形予測子」と呼ばれ、リンク関数はで、シンボルはリンク関数を表すためによく使用されます)
3)応答の分散は一定ではありませんが、分散関数(平均の関数、場合によってはスケーリングパラメーターの倍数)を介して動作します。たとえば、ポアソンの分散は平均に等しく、ガンマの場合は平均の2乗に比例します。(準分布は、想定された分布からの分散関数のある程度の分離を可能にします)
-
それでは、MLRで覚えていることと共通する仮定は何ですか?
独立はまだそこにあります。
同相性はもはや仮定されていません。分散は明示的に平均の関数であるため、一般に予測子によって異なります(したがって、モデルは一般に不均一分散ですが、不均一分散は特定の形式をとります)。
線形性:パラメーターのモデルは線形です(つまり、線形予測子は)が、期待される応答はそれらに線形に関連していません(恒等リンク関数を使用しない限り!)。
応答の分布はかなり一般的です
出力の解釈は多くの点で非常に似ています。あなたはまだ標準誤差で割った推定係数を見て、それらを同様に解釈することができます(それらは漸近的に正常です-Wald z検定-しかし、人々はそれを作る理論がなくてもt-ratiosと呼ぶようですそれら)一般的に-distributed。
ネストされたモデル間の比較(セットアップのような「anova-table」による)は少し異なりますが、類似しています(漸近カイ二乗検定を含む)。AICとBICに慣れている場合は、これらを計算できます。
通常、同様の種類の診断ディスプレイが使用されますが、解釈が難しくなる場合があります。
違いを念頭に置いておくと、多重線形回帰の直感の多くが引き継がれます。
通常の場合、実際には線形回帰では実行できないglmでできることの例があります(実際、ほとんどの人はこれに非線形回帰を使用しますが、GLMの方が簡単で優れています)は通常です、関数としてモデル化:x
(つまり、ログリンク)
変数を同じ方法で変換できますか(自然変数である必要があるため、従属変数の変換は不適切な呼び出しであることが既にわかっています)。
あなたは(通常)応答(DV)を変換したくありません。線形予測子の線形性を実現するために、予測子(IV)を変換したい場合があります。
私はすでに、負の二項分布がデータの過剰分散に役立つと判断しました(分散は約2000、平均は48)。
はい、それは過剰分散に対処できます。ただし、条件付き分散と無条件分散を混同しないように注意してください。
別の一般的なアプローチ-もう少し気味が悪く、私の心が少し満たされない場合-準ポアソン回帰(過剰分散ポアソン回帰)です。
負の二項式では、そのパラメーターの特定の1つ(少なくともGLMS用に通常再パラメーター化される方法)を指定すると、指数族になります。パラメーターを指定した場合に適合するパッケージもあれば、GLMルーチンにそのパラメーターのML推定を(プロファイルの尤度などを介して)ラップして、プロセスを自動化するものもあります。一部のディストリビューションのセットが制限されます。どんなソフトウェアを使うかは言わないので、それ以上言うのは難しい。
通常、ログリンクは負の二項回帰で使用される傾向があると思います。
基本的なポアソンGLMからデータの負の二項GLM分析を導く多くの入門レベルのドキュメント(グーグル経由で簡単に見つかります)がありますが、GLMに関する本を見て、最初に少しポアソン回帰を行うことをお勧めしますそれに慣れるだけです
具体的には、負の二項分布のデータを分析する際に役立つことがわかった参考文献(リストの仮定を含む)とGLM / GLMMは一般に次のとおりです。
Bates、DM、B。Machler、B。Bolker、およびS. Walker。2015. lme4を使用した線形混合効果モデルのフィッティング。J.スタット ソフトウェア67:1-48。
ボルカー、BM、MEブルックス、CJクラーク、SWジャンジ、JRポールセン、MHHスティーブンス、J。ホワイト。一般化線形混合モデル:生態学と進化のための実用的なガイド。エコロジーと進化のトレンド127-135。
Zeileis A.、C。Keleiber C、およびS. Jackman2008。RJStatのカウントデータの回帰モデル。ソフトウェア。27:1-25
Zuur AF、EN Iene、N。Walker、AA Saveliev、およびGM Smith。2009.米国ニューヨーク州R.スプリンガーとの生態学における混合効果モデルと拡張。