回帰分析で多項式の次数を見つける


8

私は機械学習プロジェクトに取り組んでおり、データの曲線を当てはめようとしています。残念ながら、日付の特徴ベクトルはやや高くなっています。そのため、2Dまたは3D空間に実際にプロットして、データの形状がどのように見えるかを推測することはできません。

したがって、ヒットとトライアル以外に、私のデータに最適な多項式の次数を見つけるための数学的な方法はありますか?

つまり、各次数の最小二乗誤差を調べて、最小の誤差を持つ誤差を選択できることを知っていますが、最初の最適化ループは、データに適合する曲線、2番目のループは次数のチェックに使用されます。助言がありますか?


統計的推論(信頼帯、仮説検定など)を行う予定はありますか?それはアプローチを変えるでしょう。
フランクハレル2015年

回答:


9

これが小さすぎる場合は申し訳ありませんが、私はこの答えをできるだけ自己完結型にしたかっただけです。実際、あなたが説明していることを行うことはできません:次数の最高の多項式k+1 常に、少なくとも次数の最良の多項式に適合します k、セット k+1 次数多項式にはすべてが含まれます k 次数多項式(設定するだけ ak+1=0)。増え続けるにつれてk、ある時点で、データに完全に適合する(つまり、エラーがゼロの)多項式を見つけることができます。

これは通常、非常に魅力的なソリューションではありません。たとえば、100万次多項式で説明する必要があるプロセスを想像することは困難であり、この種のモデルは、データを適切に説明するために必要なものより複雑であることはほぼ確実です。この現象はオーバーフィッティングと呼ばれ、良い例がこのウィキペディアの画像です。データは明らかに線形に近いですが、より複雑なモデルでエラーを低くすることは可能です(ただし望ましくありません)。

過剰適合

一般的に、目標は、誤差最小化することであるだろうと同じ基礎となるモデルからの新しいデータではなく、データの現在のセットで発生します。多くの場合、より多くのデータを取得することは不可能または実用的ではないため、通常、何らかの形の交差検証を使用して、目に見えないデータに最適化されたモデルを一般化します。相互検証には多くの形式があり、Wikipediaの記事やCrossValidated(ha!)に関する多数の回答でそれらについて読むことができます。しかし実際には、これらすべてを次のように削減できます。一部のデータにモデルを適合させ、これを使用して残りのデータの値を予測します。これを繰り返して、平均して最高のパフォーマンスが得られるモデル(この場合は多項式の次数)を選択します。


0

この「検索」問題を解決する方法の1つは、まず遺伝的プログラミングなどのメタヒューリスティックアルゴリズムから始め、プログラムが(適切な適合度の)「近い」関数を作成できたら、従来の機械学習回帰アルゴリズムから始めることです。 GPによって識別された学位の。n次多項式モデルを近似するために交差検定を実行する必要があります。GPの実行中に確認する必要があることのいくつかは、使用してはならない関数を提供しないことです。それ以外の場合、GPは、決定木+線形+二次などを模倣する複雑なモデルを作成する傾向があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.