従属変数をログ変換しました。LOGリンク機能でGLM正規分布を使用できますか?


10

一般化線形モデル(GLM)について質問があります。私の従属変数(DV)は連続的で、正常ではありません。だから私はそれをログに変換しました(まだ正常ではありませんが改善されました)。

DVを2つのカテゴリ変数と1つの連続共変数に関連付けます。このため、GLMを実施したい(私はSPSSを使用しています)が、選択する分布と機能をどのように決定するかわかりません。

Leveneのノンパラメトリック検定を実施し、分散の均一性があるため、正規分布を使用する傾向があります。線形回帰の場合、データは正常である必要はなく、残差はそうであると私は読みました。そのため、各GLMからの線形予測子の標準化されたピアソン残差と予測値を個別に出力しました(GLMの通常の同一性関数と通常の対数関数)。私は、正規性テスト(ヒストグラムとShapiro-Wilk)を実行し、予測値に対して残差をプロットしました(ランダム性と分散をチェックするため)。恒等関数の残差は正常ではありませんが、対数関数の残差は正常です。ピアソン残差は正規分布しているため、ログリンク関数で正規を選択する傾向があります。

だから私の質問は:

  • すでにログ変換されているDVで、LOGリンク機能を備えたGLM正規分布を使用できますか?
  • 正規分布を使用して正当化するには、分散均一性検定で十分ですか?
  • 残差チェック手順は、リンク関数モデルの選択を正当化するために正しいですか?

左側はDV分布の画像、右側はログリンク関数を使用したGLM正規分布の残差。

左側はDV分布、右側はGLM法線からの残差


つまり、GLMからのピアソン残差を通常の識別関数および通常の対数関数と比較しました。
Glen_b -Reinstate Monica

コメントありがとうございます。つまり、各GLM(IDとログ)の残差と予測値を個別に印刷し、正規性をチェックして、各モデルの予測値に対して標準化されたピアソン残差を個別にプロットしました。恒等関数の場合、残差は正常ではありませんが、対数関数の場合、残差は正常です。
科学者

予測値に対する標準化されたピアソン残差のプロットは、データが実際に正常であるかどうかをどのように示しますか?
Glen_b-2013

残差のヒストグラムをプロットし、Shapiro-Wilkを実行することで正規性をチェックしました(対数関数ではP> 0.05)。次に、予測値に対して残差をプロットして、それらがランダムに分布しているかどうかを確認し、分散をチェックしました。(重要な情報を言わなくてすみません、私が投稿するのは初めてです)
科学者

ここでは、「恒等関数」は「密度関数」の同音異義語だと思います。
Nick Cox

回答:


7

すでにログ変換されているDVで、LOGリンク機能を備えたGLM正規分布を使用できますか?

はい; そのスケールで仮定が満たされている場合

正規分布を使用して正当化するには、分散均一性検定で十分ですか?

分散の平等が正常を意味するのはなぜですか?

残差チェック手順は、リンク関数モデルの選択を正当化するために正しいですか?

ヒストグラムと適合度検定の両方を使用して、仮定の適合性をチェックすることに注意する必要があります。

1)正常性を評価するためにヒストグラム使用することに注意してください。(こちらもご覧ください

つまり、ビン幅の選択を少し変更するだけの単純なもの、またはビンの境界の位置によっては、データの形状の印象がまったく異なる可能性があります。

残差の2つのヒストグラム

これは、同じデータセットの2つのヒストグラムです。複数の異なるビン幅を使用すると、印象がそれに敏感であるかどうかを確認するのに役立ちます。

2)正規性の仮定が妥当であると結論付けるために、適合度テストを使用することに注意してください。正式な仮説テストは、実際には正しい質問に答えません。

たとえば、項目2 のリンクを参照してくださいこちら

分散については、類似のデータセットを使用したいくつかの論文で「分布には均一な分散があったため、ガウス分布のGLMが使用された」と述べられています。これが正しくない場合、配布を正当化または決定するにはどうすればよいですか?

通常の状況では、質問は「私のエラー(または条件付き分布)は正常ですか?」-彼らはそうしません、私たちもチェックする必要はありません。より適切な質問は、「存在する非正規性の程度が私の推論にどの程度悪影響を及ぼすか」です。

カーネル密度推定または通常のQQplot(残差のプロット対通常のスコア)をお勧めします。分布がかなり正常に見える場合、心配する必要はほとんどありません。実際、たとえそれが明らかに正常でない場合でも、何をしたいかによっては、それほど問題にならない場合あります(たとえば、通常の予測間隔は実際には正規性に依存しますが、他の多くのことは大きなサンプルサイズで機能する傾向があります)

おかしなことに、大きなサンプルでは、​​正常性は一般に次第に重要度が低くなります(前述のPIは別として)が、正常性を拒否する能力はますます大きくなります。

編集:分散の同等性に関するポイントは、サンプルサイズが大きい場合でも、推論に実際に影響を与える可能性があることです。しかし、おそらく仮説検定によってそれを評価すべきではありません。分散の仮定を誤って取得することは、想定される分布が何であれ、問題です。

私は、モデルのスケーリングされた逸脱度がNp前後である必要があることを読みました。

正規モデルに適合させると、スケールパラメーターが含まれます。この場合、分布が正規でない場合でも、スケーリングされた逸脱度は約Npになります。

あなたの意見では、ログリンク付きの正規分布が良い選択です

何を測定しているのか、または推論を何に使用しているのかがわからないまま、GLMに別の分布を提案するかどうかや、推論にとって正規性がどれほど重要であるかを判断できません。

ただし、他の仮定も妥当である場合(分散の線形性と等価性を少なくとも確認し、依存関係の潜在的な原因を検討する必要があります)、ほとんどの状況で、CIの使用や係数またはコントラストのテストの実行などは非常に快適です。 -これらの残差には歪度のごくわずかな印象しかありません。それが実際の効果であっても、これらの種類の推論には実質的な影響はありません。

要するに、あなたは大丈夫です。

(別の分布とリンク関数、適合の点で少し良くなるかもしれませが、制限された状況でのみ、それらはより意味をなす可能性があります。)


再度、感謝します!分散については、類似のデータセットを使用したいくつかの論文で「分布には均一な分散があったため、ガウス分布のGLMが使用された」と述べられています。これが正しくない場合、配布を正当化または決定するにはどうすればよいですか?残差正規分布については、より適切だということですね。私は、モデルのスケーリングされた逸脱度がNp前後である必要があることを読みました。値は両方のGLMとNp前後で同じです。また、AIC基準を使用して、モデルの中で最も適切なモデルを特定しました。これがあなたの意図したものかどうかわかりません。
科学者

上記の私の編集での議論を参照してください
Glen_b-モニカを復活させる

素晴らしい説明をありがとう@Glen_b 私もShapiro-Wilkを使用してテストしたヒストグラムですが、これはすべてを考慮しませんか?私はQQをプロットしました。予想される正常値と観測されたピアソン残差値をプロットし、ポイントが少し上向きになっている先端を除いて、ラインにフィットします。これはどういう意味ですか?残差の分布は正常に見えるので、続行できますか?(記録されたDVが正常でない場合でも)(まだリンクを読んでいますが、これを尋ねたかったのです)
科学者

1
" このモデルでは正規QQプロットが正規分布していたので? " ... "残差のQQプロットは正規性の仮定が妥当であることを示唆している"または "残差は正規にかなり近いように見える"と言えるかもしれません。聴衆が仮説検定を期待している場合でも、仮説検定を引用することができます(ただし、仮説検定が特に役に立たないという事実は変わりません)。「データセットの問題は、DVのヒストグラムにあります」...無条件のDVまたはIVの分布についての仮定はありません。
Glen_b-2013

1
私の回答の下部にある追加のディスカッションを参照してください。申し訳ありませんが、以前は返事をしませんでしたが、私は寝ていました。もう1つの質問について、私が尋ねた理由は、2つのモデルがほとんどの仮定を共有しているためです。DVが異なっていても、この議論のほとんどすべてがその質問に関連しています。まったく同じ状況ではありません(新しい質問になるはずです)が、この質問はそこからリンクされている必要があります。そのため、このディスカッションのコンテキストで、異なる問題や追加の問題があるかどうかなどの質問をすることができます。
Glen_b-2013
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.