Rでのdrop1出力の解釈


14

Rでは、drop1コマンドは適切なものを出力します。
次の2つのコマンドにより、出力が得られます。
example(step)#-> swiss
drop1(lm1, test="F")

私のものは次のようになります。

> drop1(lm1, test="F")
Single term deletions

Model:
Fertility ~ Agriculture + Examination + Education + Catholic + 
    Infant.Mortality
                 Df Sum of Sq    RSS    AIC F value     Pr(F)    
<none>                        2105.0 190.69                      
Agriculture       1    307.72 2412.8 195.10  5.9934  0.018727 *  
Examination       1     53.03 2158.1 189.86  1.0328  0.315462    
Education         1   1162.56 3267.6 209.36 22.6432 2.431e-05 ***
Catholic          1    447.71 2552.8 197.75  8.7200  0.005190 ** 
Infant.Mortality  1    408.75 2513.8 197.03  7.9612  0.007336 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

このすべてはどういう意味ですか?どの入力変数を保持するかを決定する際に「星」が役立つと想定しています。上記の出力を見て、「Examination」変数を捨てて「Education」変数に注目したいのですが、これは正しい解釈ですか?

また、AICの値は低いほど良いですよね?

エド。この出力を明確にするために、以下のコミュニティWikiの回答に注意し、適切と思われる場合は追加してください。


7
Rのヘルプは、関数の使用方法を説明するためのものです。統計に関するコースを意図したものではありません。それに関して、一般に、Rのヘルプページは、私が知っているすべてのオープンソースパッケージの中で最も完全で便利なものだと思います。そして、その問題のパッケージを支払う。SPSSとSASは、「解釈のガイド」として、真理と完全なナンセンスを備えた多くの巨大ジャンボを提供します。
ジョリスメイズ

1
この質問は採択されました。私は+1を与えるつもりはありませんでしたが、投票することはあまり建設的ではないようです:(1)OPは、これが宿題であり、RではなくRの組み込みデータセットを使用することを明確にしますデータ、(2)step()この記事の執筆時点で関連する質問が+2と評価されている(その理由は!?)、(3)OPは@Jorisの応答の有用性を認めた。
chl

@chl:Rのヘルプページに関して、つま先が敏感なのは私だけではないようです:-)。しかし、私は心からあなたに同意します。質問は有効であり、明確な方法で質問されているため、それを否決する理由はまったくありません。
ヨリスMeys

いや、助けを求めてつま先で足の指を踏み入れてしまったのはごめんなさい。本当にコマンドラインを使ったものに関しては、私は辛抱強くありません。私はそのように奇妙です、私は知っています。あなたは私にそれを呼び出す最初の人ではないでしょう:)私はこの場所が好きです、人々は正直です。
ガケラ

質問を編集して、RとRの支援者の支持者に不快感を与えないようにします:)誤解を招くOPのみの読者を避けるために、AICに関する質問を書き直しました。
ガケラ

回答:


10

drop1AIC基準に基づいてモデルの比較を行います。オプションtest="F"を使用する場合、ヘルプファイルで説明されているように、「タイプII分散分析」を追加します。連続変数しかない限り、この表はsummary(lm1)、F値がT値の2乗にすぎないため、とまったく同じ です。P値はまったく同じです。

それでそれをどうするか?正確にそのように解釈します。つまり、その用語のないモデルがその用語のあるモデルと「大幅に」異なる場合に表現します。ここでの重要性はほとんどの人が考えるように解釈できないため、「」の前後にかなりの注意を払ってください。(マルチテストの問題とすべて...)

そして、AICに関しては、低いほど良いように見えます。AICは、変数ではなくモデルに適用される値です。そのため、その出力からの最適なモデルは、変数の検査なしのモデルになります。

気を付けてください、AICとF統計の両方の計算は、R関数とは異なりAIC(lm1)ます。anova(lm1)。の場合AIC()、その情報はのヘルプページに記載されていますextractAIC()anova()関数については、タイプIとタイプII SSが同じではないことはかなり明らかです。

失礼にならないようにしていますが、ヘルプファイルで説明されている内容がわからない場合は、そもそも関数を使用しないでください。ステップワイズ回帰は非常にトリッキーで、最も重要な方法でp値を危険にさらします。繰り返しますが、p値に基づいてはいけません。あなたのモデルはあなたの仮説を反映すべきであり、その逆ではありません。


1
私はこの感情が好きです、「もし私がすでに何をしているのか理解していないなら、私はそれを学ぼうとするべきではありません...」起こっている。これが別の何かの始まりになることを望んでいました。
ガケラ

しかし、私はあなたの答えのこの部分を使用することができます:「それを正確にそのように解釈してください。それは、その用語のないモデルがその用語のあるモデルと著しく異なる場合に表現します。」私にとってこれは、Pr(F)値がこれらの各用語の重要性であることを意味し、小さな値はこの変数が重要であることを意味します。そのため、良いモデルには、星のない変数ではなく、「***」変数を含める必要があります。
ガケラ

4
@gakera:あなたは私を間違えた。自分が何をしているのかわからない場合は、使用する前に必ず学習してください。つまり、統計を読んで、コースをたどります。したがって、良いモデルには、仮説で定式化された変数を含める必要があります。「***」変数に基づいている場合は、最初にモデリングの徹底的なコースが必要です。あなたは明らかに私の最後のコメントを理解していませんでした。直接連絡して申し訳ありませんが、男が付属しています。個人的なものは何もありません。
ジョリスMeys

@gakera:重要なポイントを明確にするために回答を更新しました。主に、使用できると思った部分を誤って解釈したためです。
ジョリスMeys

私はやることによって学んでいます、これは結局宿題です、私がこれを正しくしなければ誰も死ぬつもりはありません-魚はすでに死んでいます:Pこれまでのところ助けてくれて、心配しないで、これはそうではありませんインターネットで私の最初の:)
ガケラ

4

参考のために、これらは表に含まれる値です。自由度を
Df指します。「自由度の数は、統計の最終計算で自由に変化できる値の数です。」

Sum of Sq列が指す二乗の和(又はより正確には平方偏差の和)。要するに、これは、個々の値がそれらの値の全体的な平均から逸脱する量の尺度です。
RSS残差平方和です。これらは、従属(または出力)変数の予測値が、セット内の各データポイントの真の値からどれだけ変化するかを示す尺度です(またはもっと口語的には、データテーブルの各「ライン」)。

AIC一般に「説明するには複雑すぎる」と見なされている赤池情報量基準ですが、要するに、推定統計モデルの適合度の尺度です。さらに詳細な情報が必要な場合は、言葉が書かれた枯れ木(本など)に目を向ける必要があります。または、Wikipediaとそこにあるリソース。

F value呼ばれるものを実行するために使用されるF検定と誘導さからPr(F)F値であることをどのように可能性が高い(又は考え= PR)について説明した値を、。ゼロに近いPr(F)値(で示される***)は、良いモデルに含めることが何らかの形で重要である入力変数を示します。つまり、それを含まないモデルは、「有意に」異なるそうです。

これらの値はすべて、drop1コマンドのコンテキストで、全体のモデル(すべての入力変数を含む)と、出力テーブルの各行ごとに特定の変数を1つ削除した結果のモデルとを比較するために計算されます。

これで改善できる場合は、気軽に追加したり、問題を明確にしてください。私の目標は、Rコマンドの出力から実際の意味へのより良い「逆引き」参照を明確にして提供することだけです。


@gakera Rを使用した実用的な回帰とAnovaは、線形モデル、および変数/モデル選択に関連する方法を理解するための良い出発点です。@Jorisが指摘したように、段階的な回帰が万能薬になることはめったにありません。
chl

はは、リンクを追加してくれてありがとう、@ chl、なぜ私はそれらを投稿できないのかについての私の免責事項を維持している。あなたは私が吸うことに同意する必要があります:D
gakera

1
@gakera編集ごとに複数のリンクを追加するには、より多くの担当者が必要だと思います。Q&A Webサイトを開始するとき、これはあまり快適ではないことがわかります。私はあなたが最後の文を自分で削除すると仮定していました。一方で、自分の質問への回答を提供するためにあまり多くの賛成票を期待すべきではないと感じています。
chl

私はこれをupvotesにはしていません(それでReddit:Pです)-有用な要約はまさに私が目指していることです-主に自分にとってですが、おそらく他の人にとってもおそらく有用です。
ガケラ

@gakeraこれは賛成票を得るためではなかったと確信しています。ほとんどの場合、追加の情報や矛盾する情報が追加されない場合、コミュニティWiki(CW)として独自の応答を設定します。これは、他者の応答を要約または集計する中立的な方法です。
chl
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.