外挿v。内挿


28

外挿と内挿の違いは何ですか?また、これらの用語を使用する最も正確な方法は何ですか?

たとえば、次のような補間を使用した論文の文を見ました。

「手順は、ビン点間の推定関数の形状を補間します」

外挿と内挿の両方を使用する文は、たとえば次のとおりです。

前のステップでは、カーネル法を使用して補間関数を左と右の温度テールに外挿しました。

誰かがそれらを区別し、例を使用してこれらの用語を正しく使用する方法を導くための明確で簡単な方法を提供できますか?




@usεr118522つの質問は同様の分野をカバーしていると思いますが、これは補間とのコントラストを求めているため異なっています。
mkt-モニカの復活

補間と外挿のこの区別は、一般的に合意された方法で厳密に形式化されていますか(たとえば、凸包を介して)、またはこれらの用語はまだ人間の判断と解釈の対象ですか?
ニックアルガー

回答:


51

これに視覚的な説明を追加するには、モデル化する予定のいくつかのポイントを考えてみましょう。

ここに画像の説明を入力してください

直線でうまく説明できるように見えるので、線形回帰を当てはめます。

ここに画像の説明を入力してください

この回帰線により、補間(データポイント間に期待値を生成)と外挿(データポイントの範囲外の期待値を生成)の両方を行うことができます。外挿を赤で、内挿の最大領域を青で強調しました。明確にするために、ポイント間の小さな領域も補間されますが、ここでは大きな領域のみを強調しています。

ここに画像の説明を入力してください

なぜ外挿が一般に懸念事項なのですか?通常、データの範囲外の関係の形状についてはあまり確信が持てないためです。さらにいくつかのデータポイント(白丸)を収集するとどうなるかを考えます。

ここに画像の説明を入力してください

結局、あなたの仮説の関係では、関係はうまく捉えられなかったことがわかります。外挿された領域の予測はかなり外れています。この非線形の関係を正確に説明する正確な関数を推測したとしても、データは非線形性をうまく捉えるのに十分な範囲に及ばなかったため、まだかなり遠いかもしれません。これは線形回帰だけでなく、すべての関係の問題であることに注意してください。これが外挿が危険であると考えられる理由です。

内挿された領域の予測も、近似に非線形性がないため不正確ですが、予測誤差ははるかに低くなります。ポイント(つまり、補間の領域)の間に予期しない関係がないことを保証するものではありませんが、一般的にはそうではありません。


外挿は常にひどい考えではないことを付け加えます-データの範囲外の小さなビットを外挿しても、おそらく間違っていることはないでしょう(可能ですが!)。世界の良い科学的モデルを持っていなかった古代人は、翌日と翌日に太陽が再び昇ると予測すれば、それほど間違っていなかっただろう(しかし、ある日は遠い未来まで、これさえ失敗するでしょう)。

2(それを思い出させてくれた@JMisnotastatisticianに感謝します)。

コメントに基づいて編集します。補間するか外挿するかに関係なく、期待を裏付ける何らかの理論を持つことが常に最善です。理論なしのモデリングを行う必要がある場合、補間によるリスクは通常、外挿によるリスクよりも低くなります。とはいえ、データポイント間のギャップが大きくなると、補間のリスクもますます大きくなります。


5
私はあなたの答えが好きで、それは私のものを補完するものであり、競合するものではありません。しかし、一部の読者にとって重要な小さな点は、赤と緑は視覚的に区別するのがかなりの人にとって難しいということです。
ニックコックス

1
@NickCox良い点、それを上げてくれてありがとう-私は今、配色を変更しました。
mkt-モニカの復職

1
@leftaroundabout私のポイントは、キーリング曲線のパターンが非常に強いため、経済学と物理学を無視した外挿が、数年から数十年の規模でまだかなり正確であることです。「過去数十年」と書きましたが、それはまさにそれが我々が高分解能測定を行ってきた時間尺度だからです。これは、外挿があなたをひどく間違って導くことのない例であり、私はそれが注目に値すると思います。私は、この答えがされていることを特徴とする故意の誤読を取るだろうと思う提唱理論フリー外挿を。
mkt-モニカの復職

1
これに関連して、外挿を使用する人々への警告として、この回答でタレブの「トルコの例」を挙げました。
JMは

1
外挿は、過剰適合がある場合に特に問題になります。たとえば、多項式モデルを使用すると、データセットから大幅に外れると、最高次の項が爆発します。
累積

21

本質的に補間、データサポート内、または既存の既知のデータポイント間の操作です。外挿データサポートを超えています。それ以外の場合、基準は次のとおりです。欠損値はどこにありますか?

区別の理由の1つは、外挿は通常、うまく実行するのがより難しく、実際にはそうでない場合でも統計的には危険でさえあることです。それは常に真実とは限りません。たとえば、河川の洪水は、流量またはステージ(垂直レベル)を測定する手段を圧倒し、測定された記録の穴を引き裂く可能性があります。これらの状況では、放電またはステージの補間も困難であり、データサポート内にあることはあまり役に立ちません。

長期的には、定性的な変化は通常、定量的な変化よりも優先されます。1900年ごろには、馬車による交通量の増加が、ほとんど不要な排泄物で都市を圧倒するという懸念が多くありました。排泄物の指数関数は、内燃機関とその異なる指数関数によって置き換えられました。

トレンドはトレンドであり、トレンドである
が、問題はそれが曲がるのか? 予期せぬ力で
進路を変え 、早々に終わりますか?

-アレクサンダーケアンクロス

ケアンクロス、A。1969。経済予測。経済ジャーナル、79:797-812。doi:10.2307 / 2229792p.797の引用)


1
いい答えだ。解釈は名前のすぐそこにあります-内挿=内を滑らかにする、外挿=を越えて滑らかにする
原子力王

1
IMOこれは正しい答えです。「データサポート」は重要なビットです。目的のポイントが2つの測定ポイントの間にある場合でも、データサポートの外にある可能性があります。たとえば、ローマの古代の人々と現代の人々の繁栄データがあり、その間にない場合、中世への補間は非常に問題になります。これを外挿と呼びます。OTOH、データがまばらに散在しているが全期間にわたって均一に分散している場合、特定の年に補間する方がはるかに妥当です。
leftaroundabout

1
@leftaroundaboutデータの大きなギャップで補間が行われる可能性があるからといって、それが外挿されるわけではありません。あなたは、手順自体の手順の妥当性を誤解しています。時には補間も悪いアイデアです。
mkt-モニカの復職

1
@mkt:彼の最初の例外挿と考えられるかもしれないということについて、私が考えたいほど明確に定義されていないので、私はleftaroundを支持するつもりです。変数の単純な変換により、補間を外挿に変換できます。彼の例では、生の時間の代わりに距離関数のようなものを使用することは、生の時間では補間しますが、距離では外挿することを意味します...そして生の時間を使用することはおそらく悪い考えです。
クリフAB

1
これが私の答えです。私はそれを修飾する必要性を感じません。内挿と外挿の大まかな区別は、どちらが行われているのかを判断するのが少し難しいことを除外しません。データ空間の中央に大きな穴がある場合、ラベル付けはどちらの方法でも可能です。いくつかのワグが指摘したように、一日の終わりと夜の始まりが互いにぼやけているという事実は、昼と夜の区別を無意味または役に立たないものにしません。
ニックコックス

12

TL; DRバージョン:

  • インター polationは、既存のデータ・ポイントとの間で行われます。
  • 追加のポレーションがそれらを超えて行われます。

ニーモニック: terpolation => サイド。

FWIW:プレフィックスはの間を意味しエクストラはを超えて意味します。のも考えて、インターステート、または間を行く状態の高速道路の余分な地球を越えてからterrestrials。


1

例:

研究:6-15歳の女の子の年齢の身長に関する単純な線形回帰を当てはめたい。サンプルサイズは100で、年齢は(測定日-生年月日)/365.25で計算されます。

データ収集後、モデルが近似され、切片b0と勾配b1の推定値が取得されます。つまり、E(height | age)= b0 + b1 * ageです。

13歳の平均身長が必要な場合、100人の女の子のサンプルに13歳の女の子はいないことがわかります。そのうちの1人は12.83歳で、1人は13.24です。

ここで、年齢= 13を式E(height | age)= b0 + b1 * ageにプラグインします。13歳はモデルの近似に使用されるデータの範囲でカバーされるため、補間と呼ばれます。

30歳の平均身長を取得し、その式を使用する場合、30歳はデータの対象年齢の範囲外であるため、外挿と呼ばれます。

モデルに複数の共変量がある場合、データがカバーする境界線を描くのが難しいため、注意する必要があります。

統計では、外挿を推奨しません。


「統計では、外挿を推奨しません。」時系列分析の大部分は、正確に....ことない
ニック・コックス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.