補間と曲線近似の最も重要な側面は、高次多項式近似が問題になる理由と他のオプションが何であるかを理解することです。そして、それらが適切な選択肢であるかどうかを理解できます。
高次多項式に関するいくつかの問題:
多項式は自然に振動関数です。多項式の次数が増加するにつれて、振動の数が増加し、これらの振動はより深刻になります。ここでは簡略化していますが、複数の想像上の根の可能性により、少し複雑になりますが、ポイントは同じです。
多項式は、xが+/-無限大になるにつれて、多項式の次数に等しいレートで+/-無限大に近づきます。多くの場合、これは望ましい動作ではありません。
高次多項式の多項式係数の計算は、通常、条件の悪い問題です。これは、小さなエラー(コンピューターでの丸めなど)が回答に大きな変化をもたらす可能性があることを意味します。解決しなければならない線形システムには、簡単に条件が悪いヴァンダーモンド行列が含まれます。
おそらくこの問題の核心は、カーブフィッティングと補間の違いだと思います。
補間は、データが非常に正確であると思われる場合に使用されるため、関数をデータポイントと正確に一致させる必要があります。データポイント間に値が必要な場合、通常はデータのローカルトレンドに一致する滑らかな関数を使用するのが最善です。キュービックまたはエルミートスプラインは、データの非ローカル(特定のポイントから遠く離れたデータポイントを意味します)の変化やエラーにあまり敏感ではなく、多項式よりも振動性が低いため、このタイプの問題に適しています。次のデータセットを考慮してください。
x = 1 2 3 4 5 6 7 8 9 10
y = 1 1 1.1 1 1 1 1 1 1 1
多項式近似には、エルミートスプラインよりも、特にデータセットのエッジ近くで、はるかに大きな振動があります。
一方、最小二乗近似は曲線近似です技術。カーブフィッティングは、データの期待される機能についてある程度知っているが、関数がすべてのデータポイントを正確に通過する必要がない場合に使用されます。これは、データに測定誤差やその他の不正確さが含まれる可能性がある場合、またはデータの一般的な傾向を抽出する場合に一般的です。最小二乗近似は、カーブフィッティングに多項式を使用することにより、コースで最もよく導入されます。これは、コースの早い段階で学習した可能性のある手法を使用して比較的簡単に解決できる線形システムになるためです。ただし、最小二乗法は、多項式近似よりもはるかに一般的であり、任意の関数をデータセットに近似するために使用できます。たとえば、データセットの指数関数的な成長傾向が予想される場合、
最後に、データに適合する適切な関数を選択することは、補間または最小二乗計算を正しく実行することと同じくらい重要です。そうすることで、(慎重な)外挿の可能性も可能になります。次の状況を考慮してください。2000〜2010年の米国の人口データ(数百万人)を考えると:
Year: 2000 2001 2002 2003 2004 2005 2006 2007 2008 2010
Pop.: 284.97 287.63 290.11 292.81 295.52 298.38 301.23 304.09 306.77 309.35
指数線形最小二乗近似N(t)=A*exp(B*t)
または10次多項式補間を使用すると、次の結果が得られます。
米国の人口増加は指数関数的ではありませんが、より適切な判断を下すようにします。