必要なのは、回帰手法のしっかりしたレビューです。ただし、これらの質問は十分に基本的なものであり(間違った方法で説明しないでください)、基本的な統計の概要を把握しても、おそらくメリットがあります。ハウエルは、非常に人気のある教科書を執筆しており、緻密な数学を必要とせずに幅広い概念の基礎を提供しています。それを読むのはあなたの時間の価値があるでしょう。ここでは、そのすべてをカバーすることはできません。ただし、具体的な質問のいくつかを開始できるように努めます。
最初に、曜日はコーディングスキームを介して含まれています。最も一般的なのは「参照カテゴリ」コーディング(通常はダミーコーディングと呼ばれます)です。データが行列で表され、ケースが行で、変数が列であるとしましょう。このスキームでは、7つのカテゴリ変数(たとえば、曜日)がある場合、6つの新しい列を追加します。参照カテゴリとして1日を選択します。通常は、デフォルトとして考えられています。多くの場合、これは理論、コンテキスト、または調査の質問によって通知されます。私はどの曜日に最適かわからないが、それはあまり重要ではなく、古いものをどれでも選ぶことができる。参照カテゴリを取得したら、他の変数を新しい6つの変数に割り当て、その変数が各ケースで取得されるかどうかを示すだけです。たとえば、日曜日を参照カテゴリとして選択するとします。新しい列/変数は月曜日から土曜日になります。月曜日に行われたすべての観測は、1月曜日の列は、それ以外は。火曜日などの観測でも同じことが起こります。 in 2以上の列を取得できるケースはありません。また、日曜日に行われた観測(参照カテゴリ)は、すべての新しい変数でを持つことに注意してください。可能な他の多くのコーディングスキームがあり、リンクはそれらを紹介するのに良い仕事をします。新しい6つの変数をすべて削除してネストしたモデルをテストするか、6つすべてを含めた完全なモデルをテストして、曜日が重要かどうかをテストできます。これらは独立しておらず、固有の多重比較の問題があるため、標準出力で報告されるテストは使用しないでください。 010
Excelが統計情報をどのように処理するかを見てから久しぶりで、はっきりとは覚えていません。そのため、他の誰かがあなたをもっと助けてくれるかもしれません。 このページには、Excelの回帰の詳細に関する情報があるようです。通常、回帰出力で報告される統計についてもう少し詳しく説明します。
- 近くにい-score値応答変数がほぼ完全に予測変数の値によって決定されることができることを示しています。明らかに、これは大きな効果ですが、これが「良い」ことはアプリオリに明らかではありません。これは、まったく異なり、哲学的に厄介な問題です。 r1
- 多重回帰を行っている場合(は通常報告されない)、' ' が何を意味するかは明確ではありません。' 'は、線形、2変量の関連付けの測定値です。つまり、2つの変数(のみ)間の直線関係に適用されます。ただし、モデルの予測値と応答値の間のスコアを取得することは可能です。その場合、2つの変数を使用しています(モデルが適切に指定されている場合、関係は線形でなければなりません)。このバージョンは「マルチスコア」と呼ばれますが、ソフトウェアで議論または報告されることはほとんどありません。 rrrrr
- R-2乗は単に 2乗(つまり、)です。標準偏差ではありません。また、関係がではなく、より決定的なものになると、向かう傾向があり。したがって、近いが「良い」と考える場合、近いも「良い」と考える必要があります。ただし、複数の(および複数のrr × r10r1R21rR2)は重回帰で大きく偏っています。つまり、モデルに追加する予測子が多いほど、関係があるかどうかに関係なく、これらの統計は高くなります。したがって、それらを解釈することに注意する必要があります。
- 「有意性」を判断するために、個々の予測子の統計とモデル全体の統計が出力される場合があります。これらは、統計的検定で計算可能な確率変数であり、自由度が指定されたときに分布がわかっています。 tF
- 実現値(つまり、見つけた値)を既知の分布と比較することにより、帰無仮説がtrueの場合に、値が極端または極端に高い確率を見つけることができます。その確率が値です。 p
- に対し、あなたは、パラメータを1つだけテストしているとき-値が使用されている(私は曜日に関して上述したように、例えば) -値は、複数のパラメータをテストに使用することができます。関連付けられた-値確率である少なくとものパラメータが「重要」です。それについて考えるもう1つの方法は、「によってテストされたすべてのパラメーターを含むモデルは、nullモデルよりも応答を予測するのにより優れた働きをするか」です。tFpF1F
- 私があなたが「有意性」と呼ぶものは、おそらく.05レベルで、テストが「有意」であるために一致または超える必要がある値であると推測しています。FF
強調する価値がある最後の点は、このプロセスをそのコンテキストから切り離すことはできないということです。データを適切に分析するには、背景知識と研究課題を念頭に置く必要があります。参照カテゴリーの選択に関しては、上記で触れました。たとえば、靴のサイズは関係ないはずですが、フリントストーンの場合はおそらくそうでした。忘れられがちなようですが、この事実を含めたいと思います。