regsubsetの計算、解釈、およびモデル選択手順に関する一般的な質問


9

を使用してモデルを選択したいregsubsets()。私はolympiadatenと呼ばれるデータフレームを持っています(アップロードされたデータ:http : //www.sendspace.com/file/8e27d0)。最初にこのデータフレームを添付してから分析を開始します。私のコードは次のとおりです。

attach(olympiadaten)

library(leaps)
a<-regsubsets(Gesamt ~ CommunistSocialist + CountrySize + GNI + Lifeexp + 
              Schoolyears + ExpMilitary + Mortality +
PopPoverty + PopTotal + ExpEdu + ExpHealth, data=olympiadaten, nbest=2)
summary(a)
plot(a,scale="adjr2")


summary(lm(Gesamt~ExpHealth))

プロットのスクリーンショット:
http://tinypic.com/r/2pq8agy/6

ここでの問題は、「手動で」最適なモデルをもう一度フィットさせて確認したいのですが、調整されたRの2乗の値がregsubsetsの出力と同じではないということです。これは、他のモデルにも当てはまります。たとえば、グラフィックで最も単純なモデルを実行するとします。

summary(lm(Gesamt~ExpHealth))

図は、約0.14の調整済みR二乗が必要であることを示していますが、出力を見ると、0.06435の値を取得しています。

これは次の出力ですsummary(lm(Gesamt~ExpHealth))

Call:
lm(formula = Gesamt ~ ExpHealth)

Residuals:
    Min      1Q  Median      3Q     Max 
-18.686  -9.856  -4.496   1.434  81.980 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)  -3.0681     6.1683  -0.497   0.6203  
ExpHealth     1.9903     0.7805   2.550   0.0127 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 18.71 on 79 degrees of freedom
  (4 observations deleted due to missingness)
Multiple R-squared: 0.07605,    Adjusted R-squared: 0.06435 
F-statistic: 6.502 on 1 and 79 DF,  p-value: 0.01271 

私が何を間違ったのかわからないので、どんな助けでもいただければ幸いです。

そして最後に重要なこととして、さらにいくつかの質問:

  • AICとadjによるモデルの選択の違いは何ですか。Rの2乗?
  • どちらも近似を測定し、変数の数を認識します。そのため、AICによって選択された最良のモデルではなく、最も高いadjを持つモデルでもあります。r二乗?
  • 12個の変数がある場合、これはモデルの可能性があることを意味しますよね? 212
  • それで、regsubsets()コマンドは各モデルを計算し、nbest=2各サイズの2つの最適な()を表示しますか?
  • もしそうなら、私は本当に「最高の」モデルを手に入れますか?
  • そして、(すべての変数を含むモデルから始めて)逆方向選択を使用してAICを実行すると、これも同じモデルが最終的regsubsets()に最高となるのですか?

1
調整済みの違いは、一部の変数に欠損値があるためです。すべての変数(regsubsetsの数式内)が欠落していないデータのサブセットを使用してモデルを「手動で」近似した場合、同じ調整済みが得られると思います。注:regsubsetsを使用してモデルを選択することは、不適切な方法と見なされます。R2R2
mark999 2012

1
@ mark999あなたのコメントは良いです、そしてそれは正しい答えを与えるように見えます。答えに変換する必要があります。
Michael R. Chernick

@MichaelChernickに感謝しますが、コメントとして残すことを好みます。
mark999 2012

@ user1690846stats.stackexchange.com/questions/8303/…に対するPeter Flomの回答を確認することをお勧めします
mark999

@ mark999まず答えに感謝しますが、なぜこれが貧弱な方法なのですか?そして、AICで選択する方が良いですか?では、na.omit(olympiadaten)を使用してモデルを適合させる必要がありますか?誰か他の質問に対する答えがあれば、それ以上の答えは非常にありがたいです、ありがとう
user1690846

回答:


7

すべてのサブセットまたは最良のサブセットツールを使用して「最良の」フィッティングモデルを見つける方法についてさらに理解を深めるために、Darrell Huffの本「How to Lie with Statistics」では、Readers Digestがタバコの煙に含まれる化学物質の比較を公開しているストーリーを紹介しています。彼らの記事の目的は、異なるブランド間で実際の違いはなかったが、一部の化学物質では1つのブランドが最も低く(ただし、その違いは無意味だったため)、そのブランドは、 Readers Digestによると、「最低」または「最高」である。

すべてのサブセットまたは最良のサブセットの回帰は類似しており、表示するグラフからの実際のメッセージは「ここが最高」ではなく、実際には最良のモデルが1つではないということです。統計ビュー(調整されたr-2乗を使用)から、モデルの大部分はほとんど同じです(下部のいくつかは上記のものより劣っていますが、残りはすべて類似しています)。その表から「最高」のモデルを見つけたいというのは、たばこ会社がすべて似ていることを示すことが目的であったときに製品が最高だったと言っているようなものです。

これは、データセットから1つのポイントをランダムに削除して分析を再実行することです。同じ「最良の」モデルが得られますか?それとも変わりますか?毎回異なるポイントを削除して数回繰り返し、「最良」のモデルがどのように変化するかを確認します。データのわずかな変更が別の「最良」を与えるときに、モデルが「最良」であると主張して本当に快適ですか?また、異なるモデル間で係数がどの程度異なるかを見てください。それらの変更をどのように解釈しますか?

データの背後にある質問と科学を理解し、その情報を使用して「最良の」モデルを決定するのに役立てることをお勧めします。非常に類似している2つのモデルを検討してください。唯一の違いは、1つのモデルに含まれ、もう1つのモデルに含まれていることです。使用したモデルはわずかに適合します(adj rの二乗0.49対0.48)。ただし、を測定するには、手術が必要で、を測定しながらラボの結果を2週間待つ必要があります。x1x2x1x1x25分と血圧計がかかります。アジャスターのr二乗でその追加の0.01を取得することは、追加の時間、費用、およびリスクに値するのでしょうか。それとも、より優れたモデルは、より速く、より安く、より安全なモデルでしょうか。科学の観点から何が理にかなっていますか?上記の例では、軍への支出を増やすことでオリンピックの成績が上がると本当に思いますか?それとも、より直接的な影響を与える他の支出変数の代理として機能するその変数の場合ですか?

考慮すべき他の事柄には、いくつかの優れたモデルを取りそれらを組み合わせる(モデル平均化)、または各変数を何らかの形でペナルティ(リッジ回帰、LASSO、エラスティックネットなど)を追加または追加するのではなく、含めることが含まれます。


いい答えです!「データの背後にある質問と科学を理解し、その情報を使用して、「最良の」モデルとそれに続くすべての段落を決定するのに役立つことが強調されています。
Andre Silva

2

いくつかの質問に答えているので、モデルの選択に関する質問のみを取り上げます。AIC、BIC、Mallow Cp、および調整されたRはすべて、調整された測定または基準のペナルティ関数による過剰適合モデルの問題を考慮に入れてモデルを比較および選択する方法です。しかし、ペナルティ関数が異なる場合、2つの類似した基準が最終モデルの異なる選択につながる可能性が非常に高くなります。異なる基準の最小値は、異なるモデルで発生する可能性があります。これは、AICとBICによって選択されたモデルを見るときにかなり頻繁に観察されています。2

私はあなたが最高のモデルで何を意味するのか本当に知りません。各基準は基本的に最高の異なる定義を与えます。情報、エントロピー、確率的複雑さ、説明された(調整された)パーセンテージ分散などの観点から、モデルを最もよく呼び出すことができます。特定の区分を扱っていて、考えられるすべてのモデルでAICの真の最小値を最もよくキャプチャすることを意味している場合は、すべてのモデル(つまり、変数のすべてのサブセット選択)を調べることによってのみ保証できます。ステップアップ、ステップダウン、およびステップワイズの手順は、特定の重要度という意味で常に最適なモデルを見つけるとは限りません。ステップワイズ回帰を使用すると、異なるモデルを開始することで異なる答えを得ることができます。フランク・ハレルはこれについて多くのことを言うと思います。

詳細については、利用可能なモデル/サブセットの選択に関する優れた書籍がいくつかありますが、他の投稿でここで参照しました。また、SpringerのSpringerBriefシリーズでのLacey Gunterのモノグラフも間もなく登場します。私はその本の彼女の共著者でした。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.