回帰モデルの選択


8

2つの変数を使用して単純な線形最小二乗回帰を行うための適切なモデルを、どのようにして客観的に(「アルゴリズム的に」読み取る)選択できますか?

たとえば、データが2次傾向を示しているように見え、データに非常によく適合する放物線が生成されたとします。これを回帰にすることをどのように正当化しますか?または、より良いモデルが存在する可能性を排除するにはどうすればよいですか?

私が本当に心配しているのはこれです。データセット(点の補間)に完全に適合するまで、多項式の項を追加し続けるだけで、エラーはまったく発生しません。しかし、「モデル」が実際に適切であると考える理由がないため、これは予測または外挿に関しては役に立たないでしょう。では、正確さと直感的な魅力のニーズのバランスをどのように取るのでしょうか?

(また、これが以前に尋ねられたことがある場合は、私に警告してください。そうであったと思いますが、何も見つかりませんでした。)


1
質問自体が本当にあなた自身に問う必要があるという疑問を引き起こします。それはなぜこの回帰モデルを構築しているのですか?モデルを何に使用しますか?モデルから何を学びたいですか?これらは、モデルを構築する際に実行する手順を確実に導く大きな質問です。
jsk

ウィキペディアのページの過剰適合の図はそれ自体で語っていると思います。
nico 2014

回答:


1

AIC、BIC、またはその他の同様の指標を確認できます。

目とフィールドの感覚を使うことができます。

または、スプラインを使用して問題の一部を回避することもできます。


ありがとう。私は統計の初心者ですが、AIC、BICの測定値が「客観的」であるか(何かから派生したものか)、または基本的に統計的経験から「作り上げられた」のですか?

AIC、BICなどは、検討中のモデルの2つの重要な品質、パラメーターの数(k)とモデルの尤度(L)から導出されます。について考えてみましょう。ここでは、パラメーターの数と尤度の間にトレードオフが見られます。AIC2k2ln(L)
アバウマン2014年

9

データの量に関係なく、関係の正しい説明を構成する多項式を見つけることができない可能性があります。

この問題は、ほとんどすべてのクラスのモデルに及ぶ可能性があります。

ただし、通常は、観測を駆動する(複雑すぎる可能性がある)実際のプロセスを発見するのではなく、目的(モデル)に十分な説明を取得することに関心があります。

確かに、真のプロセスいくつかの仮説クラスの潜在的なモデルからのものである場合でも、真のモデルを発見することは逆効果かもしれません(たとえば、高次であるかもしれませんが、高次の項は非常に小さいかもしれません)。私たちの目的には、より単純な(つまり間違った)モデルの方がはるかに優れている場合があります。

たとえば、ややノイズの多い系列の次のいくつかの値を予測しようとしていると想像してください。当てはまるモデルはすべて、パラメーター推定にいくらかの誤差があり、その誤差は予測によって拡大されます。「真の」モデルの次数よりもはるかに優れた平均二乗予測誤差(たとえば)のパフォーマンスを備えた低次モデル(必ずしもバイアスされている)を用意するのに、それほど時間はかかりません。

モデルのパフォーマンスを評価するための一般的なツールの1つは、サンプル外予測です(必ずしも時間の経過に関係なく)。交差検証は、モデルを選択したり、モデルのパフォーマンスを比較したりするための一般的な方法の1つです。

Rob Hyndmanがここで素敵な紹介を書きました。


1

私は非常に多くの場合、人々は3つの異なるアプローチのうちの1つに同調します。

  • Fテストなどのテストを利用する常連
  • ベイジアン推論を利用するベイジアン
  • 上で引用した他の例と同じように、BICとAICを使用する情報理論の人。

頻度分析はおそらく最も単純明快であり、その欠点について最も批判されています。一方、最近は情報理論がブームになり、時間の経過とともにますます多くの人の注目を集めています。私は、あなたが少し理解して、3つのアプローチのそれぞれからいくつかのアイデアを引き出そうとするべきだと思います。データに何を含める必要があるかがわからない場合は、頻度主義のアプローチが適切な開始方法です。一方、基礎となるモデルに関する情報がある場合は、ベイジアン推論を見てください。そして、私は常に無料パラメーターの数を低く抑えています。それが、AICとBICが情報とパラメーターのバランスをとろうとするものです。


0

曲線をよりよく近似できるようにする制限付きの3次スプラインを使用します。追加の改良点として、AICc(またはBIC)を使用してノットの数を選択できます。


それは本当に特定の問題とデータセットに依存します、時々直線はデータを見ずに何かを言うのが最も難しいのが最善です。
nico 14
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.