R出力解釈からのAnova


8

統計学者が通常anova出力をどのように解釈するかについて質問があります。Rからanova出力があるとします。

> summary(fitted_data)

Call:
lm(formula = V1 ~ V2)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.74004 -0.33827  0.04062  0.44064  1.22737 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.11405    0.32089   6.588  1.3e-09 ***
V2           0.03883    0.01277   3.040  0.00292 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.6231 on 118 degrees of freedom
Multiple R-squared: 0.07262,    Adjusted R-squared: 0.06476 
F-statistic:  9.24 on 1 and 118 DF,  p-value: 0.002917 

> anova(fit)
Analysis of Variance Table

Response: V1
           Df Sum Sq Mean Sq F value   Pr(>F)   
V2          1  3.588  3.5878  9.2402 0.002917 **
Residuals 118 45.818  0.3883                    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

以上のことから、最も重要な値はPr(> F)でしょうか?したがって、このPrは0.05(95%レベル)未満です。これを「説明」するにはどうすればよいですか?「関連付け」で説明しますか。つまり、V2とV1は関連付けられていますか(関連付けられていません)?または「重要性」の観点から?「この価値は大事だなぁ…」と言われると、理解できないといつも思っていました。では、「重要」とは何でしょうか。より直感的な形式の説明はありますか?「私は95%確信している……」のように。

また、Pr値は唯一の重要な情報ですか。または、残差と残りの出力を見て結果を「説明」することもできますか?ありがとう


お使いのモデルの詳細を示して下さいfitted_data
ステファン・ローラン

この質問への回答は(寛大に)不完全です。代わりに、stats.stackexchange.com / questions / 12398 /…...またはその他の関連する質問/回答をご覧ください。
マイケル

回答:


2

上記のことから、最も重要な値はPr(> F)だと思いますよね?

私にはありません。p値のサイズが分散分析で最も重要なものであるという考えは広まっていますが、私はほぼ完全に誤解していると思います。最初は、p値はランダムな量です(さらに、nullがtrueの場合、0と1の間に均一に分布している場合)。このように、p値が低いことは、どのような場合でも特に有益であるとは限りませんが、p値のサイズの問題を超えて、エフェクトサイズなどの事柄は一般にはるかに重要です。

あなたは少し読んでみたいかもしれません

コーエン、J(1990)。私が(これまでに)学んだこと、アメリカの心理学者45、1304-1312。

コーエン、J。(1994)。地球は丸いです(p <.05)。アメリカの心理学者、49、997-1003。

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1119478/

http://www.biostat.jhsph.edu/~cfrangak/cominte/goodmanvalues.pdf

http://en.wikipedia.org/wiki/Statistical_hypothesis_testing#Ongoing_Controversy

-

p値が下回る場合の出力の解釈については、実際には触れませんでした。どのような仮説が検討されているのかを正確に言うまでもなく、「重要性」に言及しても意味がないようです。その意味で、ヌルの拒絶から生じる結論に言及することが望ましいでしょう。α

あなたが存在する場合には、それは(V2は、質的または連続している場合は私も知らない)コンテキストなしで解釈するのは難しいですが、V2が連続した場合、私は可能性が V1とV2の間に関連性があると結論について何かを言います。V2がカテゴリカル(0-1)である場合、2つのカテゴリの平均V1の違いについて何か言うことがあります。

今言ってはいけないこと:

0.05未満(95%レベル)

p <0.05を「95%レベルで有意」と呼ぶことはありません。それは間違っている。実際、それを95%と呼ぶべきではありません。

「私は95%確信している……」のように。

決してそれを言うことはありません。それは間違っています。


ありがとね。これらの記事を見て、p値をさらに理解します。あなたの意見では、p値が「信頼できる」ものではない場合、どのパラメーターがV1とV2の関係について多かれ少なかれ何かを教えてくれるでしょうか?R二乗?
ドロシー

R2

要するに-p値は何かを教えてくれます-私の考えでは、それらは一般に「最も重要」ではありません。
Glen_b-2013

ああ、わかりました。結果を説明するために、ラインの信頼区間と効果サイズをさらに詳しく見ていきます。どうもありがとう。
ドロシー

1
重要なことは、主に何を調べたいかによって異なります。私にとって、それは通常係数とそれらの標準誤差であり、時にはsです。時々、p値も私にとって興味深いものです。しかし、出力の特定の部分に関心がある場合もあります。
Glen_b-2013

1

私が最初に見るかもしれない出力のチャンクはこれです:

Multiple R-squared: 0.073,    Adjusted R-squared: 0.065
F-statistic:  9.24 on 1 and 118 DF,  p-value: 0.003

モデル全体が有意であったことがわかります(F(1,118)= 9.24、p = .003)。V1はV2の分散の約7%を占めています。

エフェクトサイズ(0.039)は、V2が1増加すると、モデルはV1が(正の関係)増加することを予測することを示します(正の関係)。その推定上の標準誤差(0.013)の効果の95%信頼区間はCI95 = [0.0135、0.064(すなわち、である、(おおよそ)のことを示す.039- 1.96*.013まで.039+ 1.96*.013

信頼区間にはゼロは含まれていません。ゼロは(必要に応じて)p値と連動します。

(あなたが述べたように)anova出力が必要な場合は、それを要求する必要があります(これは回帰の要約ではありませんsummary())。

anova()、またはcarパッケージから、Anovaこれを提供します。目的に応じて、自動車のAnovaのデフォルト出力を選択できます。これにより、ANOVAの各変数の効果が、最後に入力されたかのように、いわゆる「タイプIII二乗和」と見なされます。

mtcarsガロンあたりの車のマイルのRs データセットと、重量やエンジンサイズなどの他のデータを使用する組み込みの例に切り替えると、Anovaの例を生成できます。

m1 = lm(mpg ~ wt + disp + cyl+gear+am, data = mtcars);
Anova(m1)
| | 合計平方| Df | F値| Pr(> F)|
|:--------- | ------:|-:| -------:| -------:|
| wt | 58.02 | 1 | 8.27 | 0.01 * |
| disp | 1.53 | 1 | 0.22 | 0.64 |
|シリンダー| 57.59 | 1 | 8.21 | 0.01 * |
|ギア| 6.02 | 1 | 0.86 | 0.36 |
|午前| 3.44 | 1 | 0.49 | 0.49 |
|残余| 182.41 | 26 | | |

これは、車両の重量とシリンダーの数が、車両で達成されたガロンあたりのマイル数の重要な要素であることを示唆しています。もちろん、これらすべての変数は自動車のデータセットで混乱しており、ここで前進するには燃料消費の理論が本当に必要であることを示しています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.