外挿と内挿の違いは何ですか?また、これらの用語を使用する最も正確な方法は何ですか?
たとえば、次のような補間を使用した論文の文を見ました。
「手順は、ビン点間の推定関数の形状を補間します」
外挿と内挿の両方を使用する文は、たとえば次のとおりです。
前のステップでは、カーネル法を使用して補間関数を左と右の温度テールに外挿しました。
誰かがそれらを区別し、例を使用してこれらの用語を正しく使用する方法を導くための明確で簡単な方法を提供できますか?
外挿と内挿の違いは何ですか?また、これらの用語を使用する最も正確な方法は何ですか?
たとえば、次のような補間を使用した論文の文を見ました。
「手順は、ビン点間の推定関数の形状を補間します」
外挿と内挿の両方を使用する文は、たとえば次のとおりです。
前のステップでは、カーネル法を使用して補間関数を左と右の温度テールに外挿しました。
誰かがそれらを区別し、例を使用してこれらの用語を正しく使用する方法を導くための明確で簡単な方法を提供できますか?
回答:
これに視覚的な説明を追加するには、モデル化する予定のいくつかのポイントを考えてみましょう。
直線でうまく説明できるように見えるので、線形回帰を当てはめます。
この回帰線により、補間(データポイント間に期待値を生成)と外挿(データポイントの範囲外の期待値を生成)の両方を行うことができます。外挿を赤で、内挿の最大領域を青で強調しました。明確にするために、ポイント間の小さな領域も補間されますが、ここでは大きな領域のみを強調しています。
なぜ外挿が一般に懸念事項なのですか?通常、データの範囲外の関係の形状についてはあまり確信が持てないためです。さらにいくつかのデータポイント(白丸)を収集するとどうなるかを考えます。
結局、あなたの仮説の関係では、関係はうまく捉えられなかったことがわかります。外挿された領域の予測はかなり外れています。この非線形の関係を正確に説明する正確な関数を推測したとしても、データは非線形性をうまく捉えるのに十分な範囲に及ばなかったため、まだかなり遠いかもしれません。これは線形回帰だけでなく、すべての関係の問題であることに注意してください。これが外挿が危険であると考えられる理由です。
内挿された領域の予測も、近似に非線形性がないため不正確ですが、予測誤差ははるかに低くなります。ポイント(つまり、補間の領域)の間に予期しない関係がないことを保証するものではありませんが、一般的にはそうではありません。
外挿は常にひどい考えではないことを付け加えます-データの範囲外の小さなビットを外挿しても、おそらく間違っていることはないでしょう(可能ですが!)。世界の良い科学的モデルを持っていなかった古代人は、翌日と翌日に太陽が再び昇ると予測すれば、それほど間違っていなかっただろう(しかし、ある日は遠い未来まで、これさえ失敗するでしょう)。
(それを思い出させてくれた@JMisnotastatisticianに感謝します)。
コメントに基づいて編集します。補間するか外挿するかに関係なく、期待を裏付ける何らかの理論を持つことが常に最善です。理論なしのモデリングを行う必要がある場合、補間によるリスクは通常、外挿によるリスクよりも低くなります。とはいえ、データポイント間のギャップが大きくなると、補間のリスクもますます大きくなります。
本質的に補間は、データサポート内、または既存の既知のデータポイント間の操作です。外挿はデータサポートを超えています。それ以外の場合、基準は次のとおりです。欠損値はどこにありますか?
区別の理由の1つは、外挿は通常、うまく実行するのがより難しく、実際にはそうでない場合でも統計的には危険でさえあることです。それは常に真実とは限りません。たとえば、河川の洪水は、流量またはステージ(垂直レベル)を測定する手段を圧倒し、測定された記録の穴を引き裂く可能性があります。これらの状況では、放電またはステージの補間も困難であり、データサポート内にあることはあまり役に立ちません。
長期的には、定性的な変化は通常、定量的な変化よりも優先されます。1900年ごろには、馬車による交通量の増加が、ほとんど不要な排泄物で都市を圧倒するという懸念が多くありました。排泄物の指数関数は、内燃機関とその異なる指数関数によって置き換えられました。
トレンドはトレンドであり、トレンドである
が、問題はそれが曲がるのか? 予期せぬ力で
進路を変え 、早々に終わりますか?-アレクサンダーケアンクロス
ケアンクロス、A。1969。経済予測。経済ジャーナル、79:797-812。doi:10.2307 / 2229792(p.797の引用)
TL; DRバージョン:
ニーモニック:中 terpolation => でサイド。
FWIW:プレフィックスはの間を意味し、エクストラはを超えて意味します。のも考えて、インターステート、または間を行く状態の高速道路の余分な地球を越えてからterrestrials。
例:
研究:6-15歳の女の子の年齢の身長に関する単純な線形回帰を当てはめたい。サンプルサイズは100で、年齢は(測定日-生年月日)/365.25で計算されます。
データ収集後、モデルが近似され、切片b0と勾配b1の推定値が取得されます。つまり、E(height | age)= b0 + b1 * ageです。
13歳の平均身長が必要な場合、100人の女の子のサンプルに13歳の女の子はいないことがわかります。そのうちの1人は12.83歳で、1人は13.24です。
ここで、年齢= 13を式E(height | age)= b0 + b1 * ageにプラグインします。13歳はモデルの近似に使用されるデータの範囲でカバーされるため、補間と呼ばれます。
30歳の平均身長を取得し、その式を使用する場合、30歳はデータの対象年齢の範囲外であるため、外挿と呼ばれます。
モデルに複数の共変量がある場合、データがカバーする境界線を描くのが難しいため、注意する必要があります。
統計では、外挿を推奨しません。