補間は回帰の概念にどのように関連していますか?


17

補間の意味を簡単に説明してください。回帰の概念とどのように関連していますか?

補間は、テーブルの行間を読み取る技術であり、初等数学では、この用語は通常、関数の与えられた値または表値のセットから関数の中間値を計算するプロセスを示します。

2番目の質問には答えられません。助けてください


4
回帰分析は、(独立変数)が与えられた場合に(従属変数)の期待値を記述する関数識別することを目的としています。補間は、特定の値での値を予測するために回帰を使用します。違いは微妙ですが、が相関しているモデルでは、予測値が回帰値と通常異なるため、前面に出てきます。回帰も予測も数学テーブルでの補間には直接適用されず、通常はランダムエラーがないと想定されますが、それらのアルゴリズムは引き続き使用できます。YXYXY
whuber

2
これはいくつかのクラスで機能しますか?
Glen_b -Reinstateモニカ

回答:


23

補間と回帰の主な違いは、それらが解決する問題の定義です。

与えられたあなたが補間したときに、データポイント、あなたが指定したとおりにそのポイントの値を持っているいくつかの定義済みの形式である機能を探してください。これは、与えられたペアがを満たす事前に定義された形式のを探すことを意味します。最も一般的には、は多項式、スプライン(特定のポイント間の間隔の低次多項式)に選択されると思います。n(xi,yi)FF(xi)=yiF

回帰を行うとき、通常はエラーの二乗和であるコストを最小化する関数を探します。関数が与えられたポイントで正確な値を持っている必要はなく、ちょうど良い近似が必要です。一般に、見つかった関数はどのデータポイントでもを満たさない可能性がありますが、コスト関数、つまりが最小になります与えられた形式のすべての機能の可能性。FF(xi)=yii=1n(F(xi)yi)2

補間の代わりに近似値のみを使用する理由の良い例は、株式市場の価格です。あなたは、いくつかの中で値段を取ることができ時間の最近の単位、および次の時間単位での価格のいくつかの予測を得るためにそれらを補間してみてください。これはかなり悪い考えです。価格間の関係を多項式で正確に表現できると考える理由がないためです。しかし、価格にはある程度の「勾配」があり、少なくとも局所的に線形関数が適切な近似となる可能性があるため、線形回帰がトリックを行う可能性があります(ヒント:それほど簡単ではありませんが、この場合、補間は間違いなくより良いアイデアです)。k


いい答え。私は、回帰と、の間の関係を定義し、その背後にある統計モデルがあることを追加しますと、(回帰の異なるフレーバーまたは中央値、もしくは分位など)例えば、我々はそれが平均だ推定いくつかのディストリビューションの面では、統計.stackexchange.com / questions / 173660 /…Yバツ
ティム

説明した例は、補間ではなく外挿ではありませんか?
bi_scholar

6

これまでの2つの回答では、線形補間と線形回帰(または一般的な補間と多項式回帰)の関係について説明しました。しかし、重要な関係は、回帰モデルを適合させると、それを使用して特定のデータポイント間を補間できることです。


たとえば、性別に対して身長を回帰すると、半分の男性、半分の女性の予想される高さを見つけるために補間できます!この架空の例は、この応答の基本的な欠陥を強調しています。これは、回帰モデルのすべての回帰変数が連続変数でなければならないという仮定です。
whuber

2
私の答えは、すべての予測変数が連続的である場合に適用されます。
Michael R. Chernick

4

簡単な例と視覚化により、これがかなり早く実現することを願っています。

次のデータがあるとします。

X  Y
1  6
10 15
20 25
30 35
40 45
50 55

Xへの応答としてYをモデル化するために回帰を使用できます。Rを使用します。 lm(y ~ x)

結果は、5の切片と1のxの係数です。つまり、任意のYは、X + 5として与えられたXに対して計算できることを意味します。

ここに画像の説明を入力してください

X軸に沿って任意の場所に移動し、フィット線まで線を引き、Y軸まで線を引いた場合、値ポイントを提供したかどうかに関係なく、値を取得できることに注意してください。 Y.回帰は、基礎となる関係を推定することにより、データのない領域を平滑化します。


2

次のように補間し、回帰ワット基本的な相違点bは/です:補間:ポイント(例:10データポイント)のnが存在すると仮定し、補間に私たちは収まるすべてのデータ点を通る曲線を(つまり、ここでは10個のデータ・ポイント)は、Aと多項式の次数(no.of data points -1;すなわち、ここでは9)。回帰のように、すべてのデータポイントではなく、それらのセットのみが曲線近似に必要です。

一般に、次数が3を超える場合、補間と回帰の次数は(1,2または3)になり、より多くの振動が曲線に表示されます。


2
これは、補間は、多項式に基づいていることを意味し、そのような等キュービックスプライン、区分的3次エルミート、最近傍、のようないくつかの他の方法がある
ニックコックス

@Nickあなたは正しいですが、あなたが名前を付けるすべてのメソッドが実際に多項式に基づいているのは興味深いです!おそらく、最も単純で最もよく知られている非多項式補間は、逆距離重み付け(IDW)です。
whuber

@whuber Agreeed; 制約付きで多項式を適用できる場合、ほとんどの方法が適格です。たとえば、最近傍=区分的定数など
Nick Cox

2

回帰は、最適なラインを見つけるプロセスです[1]。補間は、使用している値がデータの範囲内にある場合、最適なラインを使用して、ある変数の値を別の変数の値から推定するプロセスです。範囲外の場合は、Extrapolation [1]を使用しています。

[1] http://mathhelpforum.com/advanced-applied-math/182558-interpolation-vs-regression.html


2
この答えは、補間と外挿を区別しません。それらは同じものだと思いますか?ところで、数学フォーラム(および教科書や論文さえ)は、統計問題に関する情報の良い情報源ではありません。なぜなら、それらは、純粋に数学的な応用において正しくて有用ではあるが、より広く適用されない狭い数学的な意味に焦点を当てる傾向があるためです。
whuber

1

補間またはスプラインフィッティングを使用すると、サイズが大きい数値データ(元のデータの各ペア間で補間された)が得られ、プロットすると滑らかな曲線の効果が生成されます。実際には、元のデータの各ペアの間に異なる多項式が適合しているため、補間後の曲線全体は区分的に連続した曲線になり、各断片は異なる多項式で形成されます。

元の数値データのパラメトリック表現を探している場合は、回帰を実行する必要があります。スプラインに高次の多項式を当てはめることもできます。いずれにせよ、表現は近似になります。また、近似の精度を確認することもできます。


Nick Coxのコメントを読む機会がまだなかったようです。これは、すべての補間器が(ローカル)多項式ではないことを指摘しています。
whuber

0

回帰と補間の両方を使用して、別の変数(X)の特定の値に対する変数(Y)の値を予測します。回帰では、独立変数(X)の特定の値について、従属変数(Y)の任意の値を予測できますが、表の値の範囲外であっても、補間の場合は、従属変数の値のみを予測できます(Y)与えられたXの値の範囲内にある独立変数(X)の値。


0

補間は、x = aとx = bの間の多数の点を補間多項式に正確に適合させるプロセスです。補間を使用すると、回帰手法よりも高い精度で、ドメインx = [a、b]のyの近似値(または欠損値)を見つけることができます。

一方、回帰は、最小の二乗誤差でポイントを通過するか、ポイントの近くを通過する曲線に多くのポイントを適合させるプロセスです。回帰は、x = [a、b]領域のyの値を補間ほど正確に近似しませんが、回帰はx =(-infinity、a)とx =(の間の領域のyの値の補間よりも優れた予測を提供しますb、+∞)。

要約すると、補間により、既知のx範囲のドメイン内でyの値の精度が向上し、回帰により、既知のx範囲以下およびそれ以上のドメインでyの予測が向上します。


3
多項式が使用されるのは、補間の定義ではありません。他の滑らかな機能が適切かもしれません。
ニックコックス

3
申し立てには他にも問題があります。たとえば、回帰は補間よりも正確です。2つの手順の統計的な違いは、あなたが表すものとはまったく異なります。このスレッドの他の投稿を参照してください。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.