残差の非正規性


8

残差の正規分布の重要性に疑問を呈するように見えるこの投稿を参照します。これは、不均一分散とともに、ロバストな標準誤差を使用することで回避できる可能性があると主張しています。

私はさまざまな変換(ルート、ログなど)を検討しましたが、すべて問題を完全に解決するのに役に立たないことがわかりました。

これが私の残差のQQプロットです。

正規性プロット

データ

  • 従属変数:すでに対数変換を使用(このデータの外れ値の問題と歪度の問題を修正)
  • 独立変数:会社の年齢、およびいくつかのバイナリ変数(指標)(後で、独立変数として別の回帰のためにいくつかのカウントがあります)

iqrStata のコマンド(Hamilton)は、正規性を除外する重大な外れ値を特定しませんが、下のグラフはそうでないことを示唆しており、Shapiro-Wilkテストもそうです。


4
私はそのようなグラフを心配していません、偏差は十分に穏やかに見えます。必要に応じて、qenvパッケージを使用してそのグラフに信頼限界を追加できます。
Maarten Buis 2013

4
プロットに基づいてあまり心配する必要がないことは、@ MaartenBuisに同意します。残差の正規性の正式なテスト(シャピロ検定など)に依存することお勧めしません。大きなサンプルでは、​​テストはほとんどの場合、仮説を棄却します。ここでは残差の正規の正式な検査の正確疑問を解決するグレンから有益な答えがあります。
COOLSerdash 2013

4
これこれも参照してください。また、サンプルサイズが大きくなるにつれて、通常の前提条件の重要性が低くなることにも注意してください。予測変数がたくさんない限り、そのような穏やかな非正常性はまったく何の影響もありません。問題は、サンプルが大きい場合に仮説検定が拒否するだけではありません。他のサンプルサイズでも間違った質問に答えます。
Glen_b-モニカを復活させる2013

3
p

5
重要なのは、推論への影響です。このような小さな効果がまったく影響する唯一の推論形式は、予測間隔を使用することです...そして、そこにいても、最後まで予測間隔が必要でない限り、ほとんど使用せずにそれを使用します( 99%以上と言います)。さらに懸念されるのは、平均や分散のモデルの依存性やバイアス、誤指定などの問題です。
Glen_b-2013

回答:


9

「テストのような風味」をグラフに追加する1つの方法は、それらの周りに信頼限界を追加することです。スタタでは、これを次のように行います。

sysuse nlsw88, clear
gen lnw = ln(wage)

reg lnw i.race grade c.ttl_exp##c.ttl_exp union

predict resid if e(sample), resid

qenvnormal resid, mean(0) sd(`e(rmse)') overall reps(20000) gen(lb ub)

qplot resid lb ub, ms(oh none ..) c(. l l)     ///
    lc(gs10 ..) legend(off) ytitle("residual") ///
    trscale(`e(rmse)' * invnormal(@))          ///
    xtitle(Normal quantiles)

ここに画像の説明を入力してください


3
Stataユーザーは最初にqenv(によってssc install qenv)インストールする必要があることに注意してください。
Nick Cox

今日はこれを見て、信頼限界を取得できるかどうかを確認します
チェザーレカメストレ2013

エラーの取得:qenvnormal resid、mean(0)se( `e(rmse) ')全体のreps(20000)gen(lb u​​b)-オプションse()は許可されません
Cesare Camestre

1
正解sd()です。それは(しゃれが意図していない)、正常であるqenvとのoverallオプションは非常に長い時間がかかります。
Maarten Buis 2013

1
のヘルプにqenvnormalは、をインストールする必要があることが説明されていますqplot。ヘルプを読むことが期待されています。さらに重要なことに、非常に古いバージョンのを使用していると思いますqplot。stata-journal.com/software/sj12-1のパッケージgr42_6からインストール
Nick Cox

5

これらのqqプロットを調べるときに注意すべきことの1つは、Nがどんなに大きくても、基になる分布が本当に正規であっても、裾が線から逸脱する傾向があることです。これはマールテンの回答に含まれています。これは、Nが次第に大きくなるにつれて、裾がますます遠くなり、よりまれなイベントになるためです。したがって、尾部のデータは常に非常に少なくなり、常に変動が大きくなります。行の大部分が予想される場所にあり、尾のみが逸脱している場合は、通常、それらを無視できます。

学生がqqプロットの正規性を評価する方法を学ぶために使用する1つの方法は、正規であることがわかっている分布からランダムサンプルを生成し、それらのサンプルを調べることです。さまざまなサイズのサンプルを生成してNが変化したときに何が起こるかを確認する演習と、実際のサンプル分布を取得して同じサイズのランダムサンプルと比較する演習があります。R のTeachingDemosパッケージには、同様の手法を使用する正規性のテストがあります。

# R example - change the 1000 to whatever N you would like to examine
# run several times
y <- rnorm(1000); qqnorm(y); qqline(y)

同意しましたが、これは彼の回答におけるマールテンの重要なポイントの1つであり、それが不確実性を知らせるために間隔が使用される理由です。
Nick Cox

この答えは冗長であることを示唆していますか?これの一部はマールテンの答えに暗に含まれていると思いますが、それが重要な点だとか、完全だとは思いません。マールテンの答えは良いです。この答えは異なりますが関連しています。
ジョン

冗長ではありませんが、Maartenの回答への相互参照は、将来の読者に役立つ可能性があります。
Nick Cox

これと私の答えの間のリンクについて明確にするために:あなたが内面を見ればqenv、このシミュレーション手法が信頼帯の計算方法の中心にあることがわかります。
Maarten Buis 2013

1
リンクを追加しました...
John
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.