最小二乗近似質問


11

私は科学的計算のコースを取っているのですが、最小二乗近似について調べました。私の質問は、特に多項式を使用した近似についてです。n + 1個のデータポイントがある場合、これらすべてのポイントを記述する次数nの一意の多項式を見つけることができることを理解しています。しかし、これが必ずしも理想的ではない理由もわかります。このようなアプローチを使用すると、データポイント間で多くのノイズを取得できます。データを十分に推定する低次の多項式を取得するのは良いことだと思います。

私の質問は、実際にどの程度の多項式を使用するかをどのように決定するのですか?経験則はありますか、それとも手元の問題のみに依存していますか?多かれ少なかれ程度を決定する際に、さまざまなトレードオフを考慮する必要がありますか?または、私はここで何かを誤解していますか?

前もって感謝します。


2
実際には、人々はスプライン補間en.wikipedia.org/wiki/Spline_interpolationのようなものを使用して、低次のポリゴンが使用されると思いますが、それらはドメイン全体で互いに適合します。このように、全体的な多項式の次数を推測する必要はありません。
ナセル

リンクをありがとう。まだスプラインを調べていないので、これは興味深い読み物です。
ウダイPramodさん

あなたが本当にやりたいことは何ですか?ポイントを補間しようとしていますか、または指定されたデータに適合しようとしていますか?たとえば、ノイズを含む正規分布で構成されるデータを補間することは役に立ちません。前者については、Nasserの答えは良いです。後者の場合、近似関数は手元の問題のみに依存し、多くの場合多項式ではありません。
幽霊屋14年

クロス検証に関するこの質問の答えに興味があるかもしれません。
BORT

回答:


18

補間と曲線近似の最も重要な側面は、高次多項式近似が問題になる理由と他のオプションが何であるかを理解することです。そして、それらが適切な選択肢であるかどうかを理解できます。

高次多項式に関するいくつかの問題:

  • 多項式は自然に振動関数です。多項式の次数が増加するにつれて、振動の数が増加し、これらの振動はより深刻になります。ここでは簡略化していますが、複数の想像上の根の可能性により、少し複雑になりますが、ポイントは同じです。

  • 多項式は、xが+/-無限大になるにつれて、多項式の次数に等しいレートで+/-無限大に近づきます。多くの場合、これは望ましい動作ではありません。

  • 高次多項式の多項式係数の計算は、通常、条件の悪い問題です。これは、小さなエラー(コンピューターでの丸めなど)が回答に大きな変化をもたらす可能性があることを意味します。解決しなければならない線形システムには、簡単に条件が悪いヴァンダーモンド行列が含まれます。

おそらくこの問題の核心は、カーブフィッティング補間の違いだと思います。

補間は、データが非常に正確であると思われる場合に使用されるため、関数をデータポイントと正確に一致させる必要があります。データポイント間に値が必要な場合、通常はデータのローカルトレンドに一致する滑らかな関数を使用するのが最善です。キュービックまたはエルミートスプラインは、データの非ローカル(特定のポイントから遠く離れたデータポイントを意味します)の変化やエラーにあまり敏感ではなく、多項式よりも振動性が低いため、このタイプの問題に適しています。次のデータセットを考慮してください。

x = 1   2   3   4   5   6   7   8   9  10
y = 1   1 1.1   1   1   1   1   1   1   1

補間
多項式近似には、エルミートスプラインよりも、特にデータセットのエッジ近くで、はるかに大きな振動があります。

一方、最小二乗近似は曲線近似です技術。カーブフィッティングは、データの期待される機能についてある程度知っているが、関数がすべてのデータポイントを正確に通過する必要がない場合に使用されます。これは、データに測定誤差やその他の不正確さが含まれる可能性がある場合、またはデータの一般的な傾向を抽出する場合に一般的です。最小二乗近似は、カーブフィッティングに多項式を使用することにより、コースで最もよく導入されます。これは、コースの早い段階で学習した可能性のある手法を使用して比較的簡単に解決できる線形システムになるためです。ただし、最小二乗法は、多項式近似よりもはるかに一般的であり、任意の関数をデータセットに近似するために使用できます。たとえば、データセットの指数関数的な成長傾向が予想される場合、

最後に、データに適合する適切な関数を選択することは、補間または最小二乗計算を正しく実行することと同じくらい重要です。そうすることで、(慎重な)外挿の可能性も可能になります。次の状況を考慮してください。2000〜2010年の米国の人口データ(数百万人)を考えると:

Year:  2000   2001   2002   2003   2004   2005   2006   2007   2008   2010
Pop.: 284.97 287.63 290.11 292.81 295.52 298.38 301.23 304.09 306.77 309.35

指数線形最小二乗近似N(t)=A*exp(B*t)または10次多項式補間を使用すると、次の結果が得られます。
人口プロット

米国の人口増加は指数関数的ではありませんが、より適切な判断を下すようにします。


1
記憶から米国の人口のグラフで私が指摘する1つの点は、ドメインにうまく適合するとは、それがうまく外挿されることを意味しません。その観点から、データがある領域の外側に大きな多項式エラーを表示するのは誤解を招くかもしれません。
ダリル14年

@Daryl Agreed、だから外挿は慎重に行われるべきであり、その場合は適切な関数を選択することが重要だと強調しました。
ダグリピンスキー14年

@DougLipinski洞察に満ちた答えをありがとう。最小二乗とは反対の線形化された最小二乗の意味を説明できますか?
bela83

@ bela83適切に答えると、コメントするには長すぎます。あなたがそれを聞きたいなら、それはとても良い新しい質問になると思います。
ダグリピンスキー

@DougLipinskiやってみよう!
bela83

2

非常に科学的ではありませんが、大まかな目安として、3次多項式は一般に良いスタートです。実際、6次以上のものを使用して良い結果が得られるのを見たことはありません。

「理想的な」多項式は、目的に十分なノイズのないデータを表す最低次の多項式です。

データが十分に小さい(通常はそうである)場合は、「オーバーフィッティング」の兆候である傾向が見られる発振が見られるまで、高次の多項式でフィッティングを試みることができます。

別の方法としては、平滑化スプラインがありますが、アプリケーションに大きく依存します。スプラインとスムージングスプラインは、補間にのみ適しています。ノイズの多いデータの場合、スプラインの平滑化に多項式近似を使用する傾向がありますが、通常、使用するデータは多項式によって適切に近似されます。


1

多項式近似で使用したきちんと効果的なアプローチは、さまざまな次数(1から10など)の最小二乗多項式を計算し、連続するポイントの中間点で平均二乗誤差を最小にする曲線を選択することです(ときデータセット内のx)ポイントで並べ替えられます。これは、過度の振動を伴う曲線を除外するのに役立ちます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.