外挿が悪い考えであった理由についての学部生の聴聞会として統計コースに座っていたことを覚えています。さらに、これについてコメントするオンラインのさまざまな情報源があります。ここにもそれについての言及があります。
誰かが外挿が悪い考えである理由を理解するのを助けることができますか?もしそうなら、どのように予測手法が統計的に無効ではないのですか?
外挿が悪い考えであった理由についての学部生の聴聞会として統計コースに座っていたことを覚えています。さらに、これについてコメントするオンラインのさまざまな情報源があります。ここにもそれについての言及があります。
誰かが外挿が悪い考えである理由を理解するのを助けることができますか?もしそうなら、どのように予測手法が統計的に無効ではないのですか?
回答:
回帰モデルはしばしば外挿に使用されます。つまり、モデルの適合に使用される予測変数の値の範囲外にある入力に対する応答を予測します。外挿に関連する危険性を次の図に示します。
回帰モデルは「構築によって」補間モデルであり、適切に正当化されない限り、外挿には使用しないでください。
このxkcdコミックはすべてを説明しています。
Cueball(棒を持った男)が持っているデータポイントを使用して、彼は女性が来月下旬までに「四ダース」の夫を持つと推定し、この推定を使用してウェディングケーキをまとめて購入するという結論に至りました。
編集3:「彼は十分なデータポイントを持っていません」と言っている人のために、別のxkcdコミックがあります:
ここでは、「サステナブル」という言葉の経時的な使用が半ログプロットに示され、データポイントを外挿すると、「サステナブル」という言葉が将来どのくらいの頻度で発生するかについての不合理な推定値が得られます。
編集2:「過去のデータポイントもすべて必要です」と言う人のために、さらに別のxkcdコミック:
ここには、過去のすべてのデータポイントがありますが、Google Earthの解像度を正確に予測することはできません。これも半対数グラフであることに注意してください。
編集:時々、最も強い相関関係(この場合はr = .9979)でさえ、単に間違っているだけです。
他の裏付けとなる証拠なしで外挿する場合、相関に違反することは因果関係を意味しません。統計の世界における別の大きな罪。
あなたはYとXを推定した場合は、しかし、あなたがいることを確認する必要があります正確に(あなたの要件を満たすのに十分な)でXを予測できるだけ Y.ほとんどの場合、インパクトXよりも、複数の要因があります
ナッシム・ニコラス・タレブの言葉で説明している別の答えへのリンクを共有したいと思います。
「予測は非常に困難です。特に未来に関するものである場合」。引用は何らかの形で多くの人々に起因します。次の「外挿」は「既知の範囲外の予測」に制限し、1次元の設定では、既知の過去から未知の未来への外挿を制限します。
だから外挿の何が問題なのか。まず、過去をモデル化するのは簡単ではありません。第二に、過去のモデルを将来に使用できるかどうかを知ることは困難です。両方の主張の背後には、因果関係やエルゴード性、説明変数の十分性など、ケースに大きく依存する深い質問があります。間違っているのは、多くの追加情報がなくても、異なるコンテキストでうまく機能する単一の外挿スキームを選択するのが難しいことです。
ただし、予測はある程度拡張できます。他の答えに加えて、いくつかの成分は実用的な外挿に役立ちます。
最近、リアルタイム環境でのシミュレーションサブシステムの通信の値を外挿するプロジェクトに参加しています。この領域の教義は、外挿が不安定を引き起こす可能性があるということでした。実際に、上記の2つの成分を組み合わせると非常に効率的であり、顕著な不安定性がない(まだ正式な証拠がなく、現在検討中である)ことに気付きました。また、外挿は、非常に低い計算負荷で、単純な多項式で機能しました。ほとんどの操作は事前に計算され、ルックアップテーブルに格納されています。
最後に、外挿が面白い描画を示唆しているように、以下は線形回帰の逆効果です。
モデルの適合は「良い」かもしれませんが、データの範囲を超える外挿は懐疑的に扱われなければなりません。その理由は、多くの場合、外挿は(残念ながらやむを得ないことですが)観測されたサポートを超えるデータの動作に関するテスト不可能な仮定に依存しているためです。
追加の注意点は、多くのノンパラメトリック推定手法では、ネイティブに外挿ができないことです。この問題は、スプラインスムージングの場合に特に顕著であり、適合スプラインを固定するノットがなくなります。
外挿は悪とはほど遠いことを強調させてください。たとえば、統計で広く使用されている数値手法(たとえば、エイトケンのデルタ2乗プロセスやリチャードソンの外挿)は、観測されたデータに対して分析された関数の基になる動作が関数のサポート全体で安定しているという考えに基づいた外挿スキームです。
他の答えとは反対に、外挿が無意味な方法で使用されない限り、外挿には何の問題もありません。まず、外挿が次のとおりであることに注意してください。
元の観測範囲を超えて、変数の値を別の変数との関係に基づいて推定するプロセス。
...したがって、それは非常に広義の用語であり、単純な線形外挿から線形回帰、多項式回帰、またはそのような定義に適合するいくつかの高度な時系列予測方法に至るまで、さまざまな方法があります。実際、外挿、予測、予測は密接に関連しています。統計では、しばしば作る予測と予測を。これはまたあなたが参照するリンクが言っていることです:
統計の1日目から、外挿は大したことではありませんが、それがまさに予測です。
多くの外挿法が予測の作成に使用され、さらに、いくつかの単純な方法は小さなサンプルで非常にうまく機能することが多いため、複雑な方法よりも優先される可能性があります。問題は、他の回答で気づかれたように、外挿法を不適切に使用した場合です。
たとえば、多くの研究は、西洋諸国では性的開始の年齢が時間とともに減少することを示しています。米国の最初の性交の年齢について下のプロットを見てください。最初の性交の年齢を予測するために盲目的に線形回帰を使用した場合、数年でゼロ未満になると予測します(最初の結婚と死後のある時点で起こる最初の出生に応じて)...ただし、 1年先の予測、線形回帰はトレンドのかなり正確な短期予測につながると思います。
(ソースguttmacher.org)
すべてのモデルが間違っていて、正確な予測をすることができないため、外挿も間違っています。他の数学/統計ツールとして、おおよその予測を行うことができます。それらがどの程度正確であるかは、問題に適した方法を使用して、データの品質、モデルの定義中に行った仮定、およびその他の多くの要因に依存します。しかし、これはそのような方法を使用できないという意味ではありません。私たちはできますが、それらの制限について覚えておく必要があり、特定の問題の品質を評価する必要があります。
Nassim Talebによる例(Bertrand Russellによる以前の例の改作)は非常に気に入っています。
毎日給餌される七面鳥を考えてみましょう。政治家が言うように、一つ一つの給餌は、人類の友好的な人々が「その最善の利益を探して」毎日給餌することが人生の一般的なルールであるという鳥の信念を固めます。感謝祭の前の水曜日の午後、七面鳥に予期しないことが起こります。それは信念の改訂を招きます。
いくつかの数学的類似物は次のとおりです。
関数の最初のいくつかのテイラー係数の知識は、後続の係数が推定パターンに従うことを常に保証するわけではありません。
微分方程式の初期条件の知識は、その漸近的な挙動の知識を常に保証するものではありません(例えば、いわゆる「バタフライ効果」にゆがめられるローレンツの方程式)
これに関する素晴らしいMOスレッドがあります。
必要に応じて、次のストーリーを検討してください。
統計コースに座っていたことも覚えています。教授は、外挿は悪い考えだと言っていました。それから次のクラスで、彼はそれが再び悪い考えだと言った。実際、彼は二度言った。
私は学期の残りは病気でしたが、多くの資料を見逃すことはできなかったと確信していました。 。
奇妙なことに、私は試験で非常に高いスコアをつけませんでした。
問題は単なる統計的なものではなく、認識論的でもあります。外挿は、自然について学ぶ方法の1つで、帰納法の一種です。摂氏0〜20度の温度範囲で材料の電気伝導度のデータがあるとします。摂氏40度の伝導度についてはどうでしょうか。
これは、少量のサンプルの推測と密接に関係しています。少量のサンプルで行われた測定から、母集団全体について何が言えるでしょうか。これは、ギネスとしてゴセットによって開始されました、スチューデントのt分布を考え出しました。彼の前では、統計学者は、サンプルサイズが常に大きくなる可能性があると仮定して、小さなサンプルについて悩むことはありませんでした。彼はギネスにいて、ビールのサンプルを処理して、出荷するビールのバッチ全体をどうするかを決定しなければなりませんでした。
そのため、実際の(ビジネス)、エンジニアリング、および科学では、常に何らかの方法で外挿する必要があります。小さなサンプルを大きなサンプルに外挿したり、入力条件の限られた範囲から、加速器で起こっていることから、数十億マイル離れたブラックホールに起こったことなど、より幅広い条件にしたりすることができます。 、外挿推定値と実際の測定値との間の不一致を調査することによって実際に学習します。多くの場合、不一致が大きいか一貫しているときに新しい現象が見つかります。
したがって、外挿に問題はないと言います。毎日やらなければならないことです。難しいだけです。
外挿自体は必ずしも悪ではありませんが、内挿で到達するよりも不合理な結論に導くプロセスです。
究極の外挿については、マンハッタンプロジェクトを検討してください。そこで物理学者は、実物を構築する前に非常に小規模なテストを行うことを余儀なくされました。彼らは単にテストに浪費するのに十分なウランを持っていませんでした。彼らは最善を尽くし、頭がよかった。しかし、最終テストが行われたとき、各科学者は、爆発したときの爆風からの距離を決定することが決定されました。すべての科学者が彼らが彼らのテストからかなり遠い外挿していることを知っていたので、どれくらい遠くが「安全」であるかに関して意見の実質的な違いがありました。彼らが核爆弾で大気に火をつけるかもしれないという些細な考慮すらありませんでした。問題はまた、かなりの外挿で解決されました!