「すべてのモデルは間違っていますが、一部のモデルは便利です」の意味は何ですか


76

「本質的に、すべてのモデルは間違っていますが、一部は有用です。」

---ボックス、ジョージEP; ノーマンR.ドレイパー(1987)。経験的モデル構築と応答曲面、p。424、ワイリー。ISBN 0471810339。

上記のフレーズの意味は何ですか?


13
同じ本には以前に言及されました:Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful.たぶんこれはもっと役立つでしょう。
usεr11852は回復モニック言う

回答:


101

その意味は、次の2つの部分で調べることで最もよく分析されると思います。

「すべてのモデルが間違っている」、つまり、すべてのモデルが間違っているのは、それが現実の単純化だからです。一部のモデル、特に「ハード」科学では、ほんの少し間違っています。摩擦や小さな物体の重力効果などを無視します。他のモデルは非常に間違っています-大きなものを無視します。社会科学では、多くを無視します。

「しかし、いくつかは有用です」-現実の単純化は非常に有用です。これらは、宇宙とそのすべてのさまざまなコンポーネントを説明、予測、理解するのに役立ちます。

これは統計だけでは真実ではありません!マップはモデルの一種です。彼らは間違ってる。しかし、優れたマップは非常に便利です。他の有用だが間違ったモデルの例はたくさんあります。


20
+1原因私は地図の類推が好きです。今後使用します!
usεr11852は回復モニック言う

4
「ハード」科学の多くのモデルもかなり遠いです(昨日、モデルがエラーバー内にあるが、エラーバーは2桁である測定を行うセミナーに参加しました)。
-gerrit

7
+1。あなたのキーセンテンスは「すべてのモデルが間違っているのは現実の単純化だからだ」と思う。人々はしばしばこれを忘れます-例えば、経済学に対する素朴な批判(私自身の批判がありますが、「現実はあなたのモデルよりも複雑です」よりももっと洗練する必要があります)。私たちがそれを単純化しなかったなら、あなたには生の現実があり、それは私たちにとって理解するには複雑すぎます。そのため、洞察を得るために単純化する必要があります。
ピーターエリス

13
1:1縮尺の完璧な地図のファンタジーは、ルイスキャロル、ホルヘルイスボルヘス、ウンベルトエコなど、多くの著者によって使用されています。マッピングする領域が複雑になり、理解しにくくなるため、実際には役に立たないでしょう(展開して読むのが面倒なことは言うまでもありません)。
ニックコックス

2
また、モデル少し間違っいる必要があることを追加することもできます。そうしないと、モデル一般化されず、したがって他の場所に適用できないためです。これをさらに下に言っているいくつかの答えがあります。しかし、すべてを読むにはあまりにも多くの答えがあります。
ziggystar

9

これは、モデル化された現象の完全な表現ではないモデルから有用な洞察を提供できることを意味します。

統計モデルは、数学的概念を使用したシステムの記述です。多くの場合、推論手順を容易にするために特定の抽象化層を追加します(たとえば、測定誤差の正常性、相関構造の複合対称性など)。自分自身が世界を主観的に見ていることを考えると、単一のモデルが現実世界の現象を完全に記述することはほとんど不可能です(私たちの感覚システムは完全ではありません)。それにもかかわらず、我々の世界にはある程度の一貫性があるため、統計的推論は成功します。したがって、ほとんど常に間違ったモデル有用であることがわかります。

(すぐに大きな大胆な答えが得られると確信していますが、これについては簡潔にしようとしました!)


これらの有用なモデルが近似解を提供していると言えますか?
-gpuguy

2
@gpuguy:もちろんできます。ジョン・テューキーを引用する:(An approximate answer to the right problem is worth a good deal more than an exact answer to an approximate problem.実際、JTの引用は驚くほど洞察力に富んでいます。)
usεr11852によると、Reinstate Monic

6
「常に正確に作成できる間違った質問に対する正確な回答よりも、しばしば曖昧な正しい質問に対するおおよその回答の方がはるかに優れています。」John W. Tukey 1962データ分析の未来。Annals of Mathematical Statistics 33:1-67(pp.13-14を参照)彼が他の時にも同様のことを言ったことは間違いないが、それは通常の情報源である。
ニックコックス

関連するCVの引用スレッドから直接引用をc-pしました。
usεr11852は回復モニック言う

6
私は元の出版物から私のものをコピーしました。
ニックコックス

6

この2009年JSAの Thad Tarpeyによる講演は、Boxパッセージに関する有益な説明と解説を提供するものでした。彼は、モデルを真実の近似と見なすと、すべてのモデルを同じように簡単に正しく呼び出すことができると主張します。

以下に要約を示します。

統計学の学生は、ジョージ・ボックスの有名な引用にしばしば紹介されます:「すべてのモデルは間違っています、いくつかは有用です。」別のより前向きな視点は、モデルがデータから関心のある情報を抽出する単なる手段であることを認めることです。真実は無限に複雑であり、モデルは単なる真実の近似です。近似が不十分または誤解を招く場合、モデルは役に立ちません。この講演では、真のモデルではない正しいモデルの例を示します。「間違った」モデルの概念が間違った結論につながる可能性があることを説明します。


3

私にとって、実際の洞察は次の側面にあります。

モデルは有用であるために正確である必要はありません。

残念なことに、多くの科学では、新しい発見や予測を可能にするために、モデルが必ずしも現実の正確な表現である必要はないことがしばしば忘れられています!

したがって、無数の変数の正確な測定を必要とする複雑なモデルを作成するのに時間を無駄にしないでください。真の天才は、仕事をする簡単なモデルを発明します。


3

結果にランダム性がある場合、モデルは100%正確な予測を提供できません。不確実性、ランダム性、エラーがなければ、モデルではなく事実と見なされます。モデルは、発生していないイベントの期待値をモデル化するために頻繁に使用されるため、最初のものは非常に重要です。これにより、実際のイベントに不確実性があることがほぼ保証されます。

完全な情報が与えられると、理論的には、そのような正確に既知のイベントに対して完全な予測を与えるモデルを作成することが可能かもしれません。ただし、これらのありそうもない状況を考えると、そのようなモデルは非常に複雑で使用するには計算上実行不可能であり、イベントによって値がどのように変化するかが他の要因によって変化するため、特定の時点でのみ正確になる可能性があります。

ほとんどの現実世界のデータには不確実性とランダム性が存在するため、完全なモデルを取得するための努力は無駄です。代わりに、データとその使用に必要な計算の両方の点で使用できるほど単純な、十分に正確なモデルを取得することを検討することはより価値があります。これらのモデルは不完全であることが知られていますが、これらの欠陥のいくつかはよく知られており、モデルに基づいた意思決定のために考慮することができます。

単純なモデルは不完全な場合がありますが、推論や相互比較が容易であり、計算負荷が少ない可能性が高いため、操作しやすい場合があります。


3

可能であれば、もう1つコメントが役立つかもしれません。私が好むバージョンの

(...)すべてのモデルは近似です。本質的に、すべてのモデルが間違っていますが、いくつかは便利です(...)

BoxおよびDraperによる応答曲面、混合物、およびリッジ解析から取られました(2007、p。414、Wiley)。ボックスが何を意味するのか、より明確である拡張引用を見てみると-統計モデリングは、についてです近似することが最も見つけることについてであるので、現実と近似することは、正確なことはありません適切な近似を。あなたの目的にふさわしいのは主観的なものです。だからこそ、それは有用なモデルの1つではありませんが、モデリングの目的に応じて、おそらくそれらのいくつかはそうです。


3

誰も追加していないため、ジョージボックスは引用されたフェーズを使用して、本の次のセクションを紹介しました。私は彼が彼が意味することを説明するのに最高の仕事をしていると信じています

PV=RTPVTR

このようなモデルの場合、「モデルは本当ですか?」という質問をする必要はありません。「真実」が「完全な真実」である場合、答えは「いいえ」でなければなりません。関心のある唯一の質問は、「モデルは明るくて便利ですか?」です。

Box、GEP(1979)、「科学モデル構築の戦略における堅牢性」、RL、Launer。ウィルキンソン、GN、統計の堅牢性、アカデミックプレス、pp。201–236。


2

このように考えるかもしれません。オブジェクトの最大の複雑さ(つまりエントロピー)は、何らかの形のBekensteinバウンドに従います。

I2πREcln2

ER

ほとんどの場合、それは大きな数字です。

2.58991·1042 107.79640 10 41Ω=2I107.79640·1041

それでは、「最高のマップ」、つまり領土そのものを、すべてのセルのすべての粒子のすべての波動方程式とともに使用したいと思いますか?絶対違う。計算上の障害になるだけでなく、気にすることとは本質的に関係のないものをモデリングすることになります。たとえば、起きているかどうかを確認するだけであれば、ニューロン#844030リボソーム#2305分子#2で電子#32458が何をしているのかを知る必要はありません。あなたがそれをモデル化しないなら、あなたのモデルは確かに「間違っている」が、私が起きているかどうかを特定できれば、あなたのモデルは間違いなく役に立つ。


2

Peterとuser11852は素晴らしい答えを出したと思います。また、モデルが本当に良ければ、おそらく過剰適合のために役に立たない(したがって、一般化できない)ことを(否定によって)追加します。


2
オーバーフィッティングのポイントに対して+1。単純なパラメーターを推定するために必要なデータが少ないという理由だけで、基礎となるモデルが間違っている(スパムフィルターなど)場合でも、Naive Bayesや線形判別分析などのアルゴリズムは非常によく機能します。
ディクランマースピアル

1

私の酸の解釈は次のとおりです。数学的モデルがすべての要因とそれらの相互作用を正確に記述すると信じて、興味のある現象を支配するのはあまりにも単純すぎてrog慢です。使用しているロジックが宇宙を理解するのに十分かどうかさえわかりません。ただし、一部の数学モデルは、このような現象について結論を出すのに役立つ十分な近似(科学的方法の観点から)を表しています。


1

天体統計学者(おそらく珍しい品種)として、私はBoxの名声の名声が不幸であると思います。物理科学では、観測された現象の根底にあるプロセスを理解するためのコンセンサスが得られることが多く、これらのプロセスは、重力、量子力学、熱力学などの法則から生じる数学的モデルで表現できることがよくあります。最適なモデルパラメータの物理的特性、およびモデルの選択と検証。2013年3月に欧州宇宙機関のPlanck衛星から論文が発表されたことで、劇的な最近の事例が発生しました。の宇宙マイクロ波背景の測定値は、ビッグバンの単純な6パラメーター「LambdaCDM」モデルを説得力をもって確立します。Boxの口述は、これら29の論文で使用されている広範囲の高度な統計的手法のどこにでも適用できるとは思わない。


1

プロセスモデルをフォーカスポイントとして考えることで、上記の答えを言い換えました。ステートメントは次のように解釈できます。

「すべてのモデルが間違っている」、つまり、すべてのモデルが間違っているのは、それが現実の単純化であるためです。一部のモデルは少し間違っています。->要件の変更、->期限内のプロジェクトの完了の無視、->顧客の希望する品質レベルなどを考慮しないなど。より大きなもの。従来のソフトウェアプロセスモデルは、無視するアジャイルプロセスモデルと比較して、多くを無視します。

「しかし、いくつかは有用です」-現実の単純化は非常に有用です。プロジェクト全体とそのすべてのさまざまなコンポーネントを説明、予測、理解するのに役立ちます。モデルが使用されるのは、その機能がほとんどのソフトウェア開発プログラムに対応しているためです。


0

「有用」という用語の別の解釈をしたいと思います。おそらくBoxが考えたものではないでしょう。

決定を下す必要があり、これがすべての情報が最終的に使用されるものである場合、何らかの形で成功を測定する必要があります。不確実な情報を伴う決定について話すとき、この尺度はしばしばユーティリティと呼ばれます。

そのため、有用なモデルを、より多くの情報に基づいた意思決定を可能にするものと考えることもできます。より効果的に目標を達成するために。

これにより、モデルが何かを正しく予測する能力など、通常の基準に加えて別の次元が追加されます。これにより、モデルが互いに関連するさまざまな側面を比較検討できます。


-2

「すべてのモデルは間違っていますが、一部は有用です」。おそらく、それは次のことを意味します。私たちは、知っていることと新しい学習を探すことで、できる限りのことをするべきでしょうか?


4
(-1)GEP Boxの意味を示唆する参考資料を提供できますか?他の答えからわかるように、彼はまったく違うことを意味していました。
ティム

OPはおそらく引用を取り、新しい解釈を与えています。私は、Boxが多かれ少なかれ、現実の正確な解釈としてモデルをとらないが、一部のモデルはデータをうまく説明できると認識しているとティムに同意します。
マイケルチャーニック
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.