回答:
その意味は、次の2つの部分で調べることで最もよく分析されると思います。
「すべてのモデルが間違っている」、つまり、すべてのモデルが間違っているのは、それが現実の単純化だからです。一部のモデル、特に「ハード」科学では、ほんの少し間違っています。摩擦や小さな物体の重力効果などを無視します。他のモデルは非常に間違っています-大きなものを無視します。社会科学では、多くを無視します。
「しかし、いくつかは有用です」-現実の単純化は非常に有用です。これらは、宇宙とそのすべてのさまざまなコンポーネントを説明、予測、理解するのに役立ちます。
これは統計だけでは真実ではありません!マップはモデルの一種です。彼らは間違ってる。しかし、優れたマップは非常に便利です。他の有用だが間違ったモデルの例はたくさんあります。
これは、モデル化された現象の完全な表現ではないモデルから有用な洞察を提供できることを意味します。
統計モデルは、数学的概念を使用したシステムの記述です。多くの場合、推論手順を容易にするために特定の抽象化層を追加します(たとえば、測定誤差の正常性、相関構造の複合対称性など)。自分自身が世界を主観的に見ていることを考えると、単一のモデルが現実世界の現象を完全に記述することはほとんど不可能です(私たちの感覚システムは完全ではありません)。それにもかかわらず、我々の世界にはある程度の一貫性があるため、統計的推論は成功します。したがって、ほとんど常に間違ったモデルが有用であることがわかります。
(すぐに大きな大胆な答えが得られると確信していますが、これについては簡潔にしようとしました!)
An approximate answer to the right problem is worth a good deal more than an exact answer to an approximate problem.
実際、JTの引用は驚くほど洞察力に富んでいます。)
この2009年JSAの Thad Tarpeyによる講演は、Boxパッセージに関する有益な説明と解説を提供するものでした。彼は、モデルを真実の近似と見なすと、すべてのモデルを同じように簡単に正しく呼び出すことができると主張します。
以下に要約を示します。
統計学の学生は、ジョージ・ボックスの有名な引用にしばしば紹介されます:「すべてのモデルは間違っています、いくつかは有用です。」別のより前向きな視点は、モデルがデータから関心のある情報を抽出する単なる手段であることを認めることです。真実は無限に複雑であり、モデルは単なる真実の近似です。近似が不十分または誤解を招く場合、モデルは役に立ちません。この講演では、真のモデルではない正しいモデルの例を示します。「間違った」モデルの概念が間違った結論につながる可能性があることを説明します。
結果にランダム性がある場合、モデルは100%正確な予測を提供できません。不確実性、ランダム性、エラーがなければ、モデルではなく事実と見なされます。モデルは、発生していないイベントの期待値をモデル化するために頻繁に使用されるため、最初のものは非常に重要です。これにより、実際のイベントに不確実性があることがほぼ保証されます。
完全な情報が与えられると、理論的には、そのような正確に既知のイベントに対して完全な予測を与えるモデルを作成することが可能かもしれません。ただし、これらのありそうもない状況を考えると、そのようなモデルは非常に複雑で使用するには計算上実行不可能であり、イベントによって値がどのように変化するかが他の要因によって変化するため、特定の時点でのみ正確になる可能性があります。
ほとんどの現実世界のデータには不確実性とランダム性が存在するため、完全なモデルを取得するための努力は無駄です。代わりに、データとその使用に必要な計算の両方の点で使用できるほど単純な、十分に正確なモデルを取得することを検討することはより価値があります。これらのモデルは不完全であることが知られていますが、これらの欠陥のいくつかはよく知られており、モデルに基づいた意思決定のために考慮することができます。
単純なモデルは不完全な場合がありますが、推論や相互比較が容易であり、計算負荷が少ない可能性が高いため、操作しやすい場合があります。
可能であれば、もう1つコメントが役立つかもしれません。私が好むバージョンの
(...)すべてのモデルは近似です。本質的に、すべてのモデルが間違っていますが、いくつかは便利です(...)
BoxおよびDraperによる応答曲面、混合物、およびリッジ解析から取られました(2007、p。414、Wiley)。ボックスが何を意味するのか、より明確である拡張引用を見てみると-統計モデリングは、についてです近似することが最も見つけることについてであるので、現実と近似することは、正確なことはありません適切な近似を。あなたの目的にふさわしいのは主観的なものです。だからこそ、それは有用なモデルの1つではありませんが、モデリングの目的に応じて、おそらくそれらのいくつかはそうです。
このように考えるかもしれません。オブジェクトの最大の複雑さ(つまりエントロピー)は、何らかの形のBekensteinバウンドに従います。
ほとんどの場合、それは大きな数字です。
それでは、「最高のマップ」、つまり領土そのものを、すべてのセルのすべての粒子のすべての波動方程式とともに使用したいと思いますか?絶対違う。計算上の障害になるだけでなく、気にすることとは本質的に関係のないものをモデリングすることになります。たとえば、起きているかどうかを確認するだけであれば、ニューロン#844030リボソーム#2305分子#2で電子#32458が何をしているのかを知る必要はありません。あなたがそれをモデル化しないなら、あなたのモデルは確かに「間違っている」が、私が起きているかどうかを特定できれば、あなたのモデルは間違いなく役に立つ。
Peterとuser11852は素晴らしい答えを出したと思います。また、モデルが本当に良ければ、おそらく過剰適合のために役に立たない(したがって、一般化できない)ことを(否定によって)追加します。
天体統計学者(おそらく珍しい品種)として、私はBoxの名声の名声が不幸であると思います。物理科学では、観測された現象の根底にあるプロセスを理解するためのコンセンサスが得られることが多く、これらのプロセスは、重力、量子力学、熱力学などの法則から生じる数学的モデルで表現できることがよくあります。最適なモデルパラメータの物理的特性、およびモデルの選択と検証。2013年3月に欧州宇宙機関のPlanck衛星から論文が発表されたことで、劇的な最近の事例が発生しました。の宇宙マイクロ波背景の測定値は、ビッグバンの単純な6パラメーター「LambdaCDM」モデルを説得力をもって確立します。Boxの口述は、これら29の論文で使用されている広範囲の高度な統計的手法のどこにでも適用できるとは思わない。
プロセスモデルをフォーカスポイントとして考えることで、上記の答えを言い換えました。ステートメントは次のように解釈できます。
「すべてのモデルが間違っている」、つまり、すべてのモデルが間違っているのは、それが現実の単純化であるためです。一部のモデルは少し間違っています。->要件の変更、->期限内のプロジェクトの完了の無視、->顧客の希望する品質レベルなどを考慮しないなど。より大きなもの。従来のソフトウェアプロセスモデルは、無視するアジャイルプロセスモデルと比較して、多くを無視します。
「しかし、いくつかは有用です」-現実の単純化は非常に有用です。プロジェクト全体とそのすべてのさまざまなコンポーネントを説明、予測、理解するのに役立ちます。モデルが使用されるのは、その機能がほとんどのソフトウェア開発プログラムに対応しているためです。
「有用」という用語の別の解釈をしたいと思います。おそらくBoxが考えたものではないでしょう。
決定を下す必要があり、これがすべての情報が最終的に使用されるものである場合、何らかの形で成功を測定する必要があります。不確実な情報を伴う決定について話すとき、この尺度はしばしばユーティリティと呼ばれます。
そのため、有用なモデルを、より多くの情報に基づいた意思決定を可能にするものと考えることもできます。より効果的に目標を達成するために。
これにより、モデルが何かを正しく予測する能力など、通常の基準に加えて別の次元が追加されます。これにより、モデルが互いに関連するさまざまな側面を比較検討できます。
「すべてのモデルは間違っていますが、一部は有用です」。おそらく、それは次のことを意味します。私たちは、知っていることと新しい学習を探すことで、できる限りのことをするべきでしょうか?
Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful.
たぶんこれはもっと役立つでしょう。