曜日などに基づく回帰


11

正しい方向に進むには少し助けが必要です。統計を調べてから専門用語が変わったようですが、久しぶりです。

次のような自動車関連データのセットがあるとします。

  • A町からB町までの移動時間
  • A町からB町までの距離
  • エンジンの大きさ
  • ドライバーの靴のサイズ
  • 車のメーカーとモデル
  • 曜日

所要時間を予測したい。

時間と距離の間には強い相関関係があり、おそらくエンジンのサイズとは弱い相関関係があると思います(靴のサイズとは相関関係がない)おそらく重回帰分析/分散分析が使用するツールです。しかし、Sunday = 1、Monday = 2などとしてコーディングするだけで非常に間違っていると感じるので、どのように曜日を含めるのですか?

たとえば、Excelの回帰ツールを使用した後、結果をどのように解釈しますか?おそらくRが1に近い場合、これは適切です(ただし、データ項目が多い場合は、小さいながらも重要であるかのように見えます)。しかし、一部のソースは、SDのように見えるr-2乗を参照しているため、ゼロに近い値が適切です。また、t Stat、P値、F、および有意Fも表示されます。誰かが良いリファレンスソースを推薦できますか?


2
記録のために、これらの質問(回帰出力の解釈について)はここの別のスレッドで尋ねられましたが、質問はあまりにも適切に構成されていなかったため、適切な回答が集まりませんでした。これは、初歩的でありながら、完全で、明確で、十分に説明されている「標準的な」答えに値する基本的な質問です。
whuber

回答:


26

必要なのは、回帰手法のしっかりしたレビューです。ただし、これらの質問は十分に基本的なものであり(間違った方法で説明しないでください)、基本的な統計の概要を把握しても、おそらくメリットがあります。ハウエルは、非常に人気のある教科書を執筆しており、緻密な数学を必要とせずに幅広い概念の基礎を提供しています。それを読むのはあなたの時間の価値があるでしょう。ここでは、そのすべてをカバーすることはできません。ただし、具体的な質問のいくつかを開始できるように努めます。

最初に、曜日はコーディングスキームを介して含まれています。最も一般的なのは「参照カテゴリ」コーディング(通常はダミーコーディングと呼ばれます)です。データが行列で表され、ケースが行で、変数が列であるとしましょう。このスキームでは、7つのカテゴリ変数(たとえば、曜日)がある場合、6つの新しい列を追加します。参照カテゴリとして1日を選択します。通常は、デフォルトとして考えられています。多くの場合、これは理論、コンテキスト、または調査の質問によって通知されます。私はどの曜日に最適かわからないが、それはあまり重要ではなく、古いものをどれでも選ぶことができる。参照カテゴリを取得したら、他の変数を新しい6つの変数に割り当て、その変数が各ケースで取得されるかどうかを示すだけです。たとえば、日曜日を参照カテゴリとして選択するとします。新しい列/変数は月曜日から土曜日になります。月曜日に行われたすべての観測は、1月曜日の列は、それ以外は。火曜日などの観測でも同じことが起こります。 in 2以上の列を取得できるケースはありません。また、日曜日に行われた観測(参照カテゴリ)は、すべての新しい変数でを持つことに注意してください。可能な他の多くのコーディングスキームがあり、リンクはそれらを紹介するのに良い仕事をします。新しい6つの変数をすべて削除してネストしたモデルをテストするか、6つすべてを含めた完全なモデルをテストして、曜日が重要かどうかをテストできます。これらは独立しておらず、固有の多重比較の問題があるため、標準出力で報告されるテスト使用しないでください。 010

Excelが統計情報をどのように処理するかを見てから久しぶりで、はっきりとは覚えていません。そのため、他の誰かがあなたをもっと助けてくれるかもしれません。 このページには、Excelの回帰の詳細に関する情報があるようです。通常、回帰出力で報告される統計についてもう少し詳しく説明します。

  • 近くにい-score値応答変数がほぼ完全に予測変数の値によって決定されることができることを示しています。明らかに、これは大きな効果ですが、これが「良い」ことはアプリオリに明らかではありません。これは、まったく異なり、哲学的に厄介な問題です。 r1
  • 多重回帰を行っている場合(は通常報告されない)、' ' が何を意味するかは明確ではありません。' 'は、線形、2変量の関連付けの測定値です。つまり、2つの変数(のみ)間の直線関係に適用されます。ただし、モデルの予測値応答値の間のスコアを取得することは可能です。その場合、2つの変数を使用しています(モデルが適切に指定されている場合、関係は線形でなければなりません)。このバージョンは「マルチスコア」と呼ばれますが、ソフトウェアで議論または報告されることはほとんどありません。 rrrrr
  • R-2乗は単に 2乗(つまり、)です。標準偏差ではありません。また、関係がではなく、より決定的なものになると、向かう傾向があり。したがって、近いが「良い」と考える場合、近いも「良い」と考える必要があります。ただし、複数の(および複数のrr×r10r1R21rR2)は重回帰で大きく偏っています。つまり、モデルに追加する予測子が多いほど、関係があるかどうかに関係なく、これらの統計は高くなります。したがって、それらを解釈することに注意する必要があります。
  • 「有意性」を判断するために、個々の予測子の統計とモデル全体の統計が出力される場合があります。これらは、統計的検定で計算可能な確率変数であり、自由度が指定されたときに分布がわかっています。 tF
  • 実現値(つまり、見つけた値)を既知の分布と比較することにより、帰無仮説がtrueの場合に、が極端または極端に高い確率を見つけることができます。その確率がです。 p
  • に対し、あなたは、パラメータを1つだけテストしているとき-値が使用されている(私は曜日に関して上述したように、例えば) -値は、複数のパラメータをテストに使用することができます。関連付けられた-値確率である少なくとものパラメータが「重要」です。それについて考えるもう1つの方法は、「によってテストされたすべてのパラメーターを含むモデルは、nullモデルよりも応答を予測するのにより優れた働きをするか」です。tFpF1F
  • 私があなたが「有意性」と呼ぶものは、おそらく.05レベルで、テストが「有意」であるために一致または超える必要がある値であると推測しています。FF

強調する価値がある最後の点は、このプロセスをそのコンテキストから切り離すことはできないということです。データを適切に分析するには、背景知識と研究課題を念頭に置く必要があります。参照カテゴリーの選択に関しては、上記で触れました。たとえば、靴のサイズは関係ないはずですが、フリントストーンの場合はおそらくそうでした。忘れられがちなようですが、この事実を含めたいと思います。


5
(+1)Excelは実際には重回帰を行うことができ、標準の要約表を作成できるコマンドがあります。分布の値を計算することで(非常に)ずさんな傾向があるという歴史的な傾向を考えると、機能はサミュエルジョンソンの犬のように考える必要があります。それはまったくやった」
whuber

3

「教える」回帰を必要とする多くの質問で終わります。R ^ 2が高いほど良いと言いますが、注意点があります。変数を追加すると、R ^ 2は常に上昇するため、人為的に膨張させることができます。有意性検定、残留診断などを確認してください。曜日に関しては、月曜日= 1、火曜日= 2などは適切ではありません。必要なのは季節のインジケーター変数です:月曜日の場合は0/1、火曜日の場合は0/1など。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.