時系列モデルでR-2乗を使用する際の問題は何ですか?


11

時系列にR-squaredを使用することは適切ではないことを読みました。時系列コンテキストでは(他のコンテキストがあることはわかっています)、R-squaredは一意ではなくなったためです。どうしてこれなの?これを調べてみましたが何も見つかりませんでした。通常、モデルを評価するとき、R-squared(または調整済みR-Squared)にあまり価値を置きませんが、多くの同僚(つまり、ビジネス専攻)はR-Squaredに完全に夢中で、できるようになりたいです。時系列のコンテキストでR-Squaredが適切でない理由を説明します。


3
グーグル検索:「計量経済学における疑似回帰」。または、グレンジャーとニューボルドの論文をチェックしてください。他の人は答えでより詳細を提供するかもしれません。
Graeme Walsh 2014年

@Richard Hardyは、「対応する母集団の測定値としてサンプルR2を使用する場合、統合された時系列で分類されます。」について詳しく説明していただけますか。
Siddharth Krishnamurthy

回答:


18

問題のいくつかの側面:

誰かが数値のベクトルと適合可能な数値の行列を与えた場合、を従属変数として扱い、いくつかの推定代数を実行するためにそれらの間の関係を知る必要はありません。代数は、これらの数値が断面データ、時系列データ、またはパネルデータを表すかどうか、または行列に遅れた値が含まれるかどうかに関係なく生成されます。 yXyXy

決定係数の基本的な定義は次のとおりです。R2

R2=1SSresSStot

ここで、はいくつかの推定手順からの残差の2乗の合計であり、はサンプル平均からの従属変数の偏差の2乗の合計です。SSresSStot

組み合わせると、は常に一意に計算され、特定のデータサンプル、変数間の関係の特定の定式化、および特定の推定手順が、点推定を提供するような推定手順であるという条件のみに従います含まれる未知の量(したがって、従属変数の点推定、したがって残差の点推定)これら3つの側面のいずれかが変化すると、算術値は一般に変化しますが、これは時系列だけでなく、あらゆるタイプのデータに当てはまります。R2R2

したがって、と時系列の問題は、それが「一意」であるかどうかではありません(時系列データのほとんどの推定手順はポイント推定を提供するため)。問題は、「通常の」時系列仕様フレームワークがに対して技術的に友好的であるかどうか、およびがいくつかの有用な情報を提供するかどうかです。 R2R2R2

「従属変数の分散の割合の説明」としてのの解釈は、残差の合計がゼロになることに大きく依存します。線形回帰(どのような種類のデータでも)および通常の最小二乗推定のコンテキストでは、これは、仕様にリグレッサマトリックスの定数項(時系列用語の「ドリフト」)が含まれている場合にのみ保証されます。自己回帰時系列モデルでは、ドリフトは多くの場合含まれていません。 R2

より一般的には、時系列データに直面すると、「自動的に」時系列が将来どのように進化するかについて考え始めます。したがって、時系列モデルは、過去の値との適合性よりも、将来の値をどの程度予測するかに基づいて評価する傾向があります。しかし、主に前者ではなく後者を反映しています。がリグレッサの数で減少しないというよく知られた事実は、リグレッサを追加し続けることで完全な適合を得ることができることを意味します(任意のリグレッサ、つまり任意の系列の数、おそらく概念的に従属変数とはまったく無関係) 。経験は、このようにして得られた完璧なフィット感は、ひどいことも与えることを示していますR2R2 サンプル外の予測。

直観的に、これはおそらく直感に反するトレードオフが発生します。これは、従属変数の可変性全体を推定方程式に取り込むことにより、予測に関して非系統的変動を系統的変動に変換するためです(ここで、「非系統的」は私たちの知識と比較して理解する必要があります) -純粋に決定論的な哲学の観点からは、「非体系的な変動性」などはありません。しかし、限られた知識により、ある程度の変動性を「非体系的」として扱うように強いられているにもかかわらず、それを体系的なものに変えようとする試みコンポーネント、予測災害をもたらす)。

実際、これはおそらく、時系列を処理するときにがメインの診断/評価ツールにならない理由を誰かに示す最も説得力のある方法ですまでリグレッサの数を増やします。次に、推定された方程式を使用して、従属変数の将来の値を予測します。R2R21


良い説明ですが、これが統計パッケージのソフトウェアの標準出力として追加される理由

@brijesh回帰の伝統、と私は言うでしょう。
Alecos Papadopoulos

正解です。ただし、時系列に固有の情報はほとんど含まれていません。予測とサンプル内フィットの比較は、おそらく時系列と同じくらい他のデータ型に適用されます。一方、時系列に固有の重要な側面の1つが欠落しています。統合変数を後退させることを意味します。対応する母集団の測定値としてサンプルを使用すると、統合された時系列に分類されます。(私は答えとしてこれを書くことができましたが、今の時間はありません。)R2
Richard Hardy
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.