多くの場合、回帰モデリングは科学よりも「芸術的」であるため、回帰構造の多数の反復をテストすることがよくあります。「最適な」モデルを見つけるために、これらの複数のモデルの実行からの情報を要約する効率的な方法は何ですか?私が使用したアプローチの1つは、すべてのモデルをリストに入れ、summary()
そのリスト全体で実行することですが、比較するより効率的な方法があると思いますか?
サンプルコードとモデル:
ctl <- c(4.17,5.58,5.18,6.11,4.50,4.61,5.17,4.53,5.33,5.14)
trt <- c(4.81,4.17,4.41,3.59,5.87,3.83,6.03,4.89,4.32,4.69)
group <- gl(2,10,20, labels=c("Ctl","Trt"))
weight <- c(ctl, trt)
lm1 <- lm(weight ~ group)
lm2 <- lm(weight ~ group - 1)
lm3 <- lm(log(weight) ~ group - 1)
#Draw comparisions between models 1 - 3?
models <- list(lm1, lm2, lm3)
lapply(models, summary)
5
データdrのように聞こえます。モデリングを開始する前に、適切なモデルであると思われるもの、共変量、変換などに焦点を当てるべきではありません。Rは、良いモデルを見つけるためにすべてのモデルフィッティングを行ったことを知りません。
—
モニカの復活-G.シンプソン
@Gavin-これは非常に迅速にトピックから外れていることがわかりますが、簡単な答えはノーです。データdrを提唱したり、データセット内のランダム変数間の偽の関係を見つけることはしていません。収入を含む回帰モデルを検討してください。所得の変化をテストして、モデルへの影響を確認することは合理的ではありませんか?収入のログ、数十ドルの収入のログ、数百ドルの収入のログ...?これがデータのisであるとしても、多くのモデルの実行からの出力を集約できる機能/要約ツールはまだ役に立ちますか?
—
チェイス