決定木を発明したのは誰ですか?


24

意思決定ツリーのデータ構造とアルゴリズムを発明したのは誰かを追跡しようとしています。

決定木の学習に関するウィキペディアのエントリには、「ID3とCARTはほぼ同時に(1970年から1980年までに)独立して発明された」という主張があります。ID3は後で提示されました。

  • Quinlan、JR1986。決定木の誘導。マッハ。学ぶ。1、1(1986年3月)、81-106

そのため、私はその主張が真実であるかどうかわかりません。

Googleの書籍を使用して、1959年の統計統計決定シリーズと1958年のワーキングペーパーのコレクションへの参照を見つけました。コンテキストは明確ではなく、アルゴリズムを提示していないようです。ただし、データ構造を定義せず、よく知られているように扱います。

Google Scholarを使用して1853年にさかのぼる引用を見つけましたが、これらは解析エラーであり、その日からの実際の引用ではありませんでした。


9
CARTに関する大きな参考文献はありますClassification and Regression Trees Leo Breiman, Jerome Friedman, Charles J. Stone, R.A. Olshen (1984)が、それは確かに最も早いものではありませんでした。ウィスコンシン大学のWei-Yin Lohは、決定木の歴史について書いています。ここに論文と 歴史に関するスライドがあります。
G5W

2
素晴らしいリファレンス!彼は、最初の回帰ツリーは1963年にJNのMorganとJAのSonquistで発表されたと述べています(1963年)。調査データの分析における問題と提案。Journal of the American Statistical Association、58:415–434。論文はpdfs.semanticscholar.org/9577/…にあり、17ページにはツリーがあります。データ構造はまだ1958年よりもずっと早いようです。
DaL17年

@ G5W、それを答えに変えてみませんか?
GUNG -復活モニカ

7
この質問は、私にとっては明確なトピックのようです。私は開いたままにすることを投票しています。
GUNG -復活モニカ

素晴らしいリード。私は彼をグーグルで試しましたが、だれが正しいのかわかりません。参照を提供できますか?
DaL

回答:


18

良い質問。@ G5Wは、Wei-Yin Lohの論文を参照する上で正しい軌道に乗っています。Lohの論文は、決定木の統計的前件について論じており、正確に、それらの軌跡を判別分析に関するFisher(1936)の論文までさかのぼります-本質的に、複数のグループを従属変数として分類する回帰-そしてそこから、AID、THAID、CHAIDおよびCARTモデル。

簡単な答えは、「意思決定ツリー」アプローチを開発した最初の記事は1959年に遡り、英国の研究者であるWilliam Belsonが、生物分類の原理に関するマッチングと予測という論文(JRSS、シリーズC、Applied Statistics、Vol。8、No。2、1959年6月、pp。65-75)、その要約では、母集団サンプルを一致させ、そのための基準を開発する方法の1つとして彼のアプローチを説明しています。

この記事では、Belson博士が母集団サンプルを照合する手法について説明しています。これは、経験的に開発された予測子の組み合わせに依存し、利用可能な最高の予測、または一致する複合を提供します。基本的な原理は、多重相関法に固有の原理とはまったく異なります。

「長い」答えは、他の初期の思考の流れでさえ、ここでは関連があるように見えるということです。たとえば、保険数理上の死亡率表で採用されている単純な年齢と性別のコホートのブレイクアウトは、数世紀前の決定について考えるための枠組みを提供します。バビロニア人にさかのぼる努力は、変数では非線形である二次方程式を使用したと主張することもできます(パラメーターではなく、http://www-history.mcs.st-and.ac.uk/HistTopics/Quadratic_etc_equations。 htmlの)私はこれがあることを認識し(少なくとも、彼らがロジスティック成長のパラメトリックモデルを予感限りにおいて、関連性を持っているストレッチコメント、それのより完全な動機のために読んでください)。さらに、哲学者は、階層的に配置された定性的な情報の存在について長い間認識し理論化してきました。たとえば、アリストテレスのカテゴリに関する本です。ここでは、階層の概念と仮定が重要です。その他の関連、ずっと後の発見は、無限のデビッド・ヒルベルトの開発、3-Dユークリッド空間の境界を越えてプッシュしていたヒルベルト空間、組み合わせ論、4-Dミンコフスキー空間に関連する物理学の発見、距離と時間、特殊相対性理論のアインシュタインの理論の背後にある統計力学、およびマルコフ連鎖、遷移およびプロセスのモデルに関連する確率の理論の革新。ここでのポイントは、理論とその適用の間に大きな遅れがある可能性があることです-この場合、定性的情報に関する理論とその経験的評価、予測、分類、およびモデリングに関連する開発との間の遅れです。

最良の推測は、これらの開発が統計学者の高度化の歴史に関連付けられ、主に20世紀に、連続以外のスケールタイプ(たとえば、名義またはより単純なカテゴリ情報)を使用するモデルの開発において、データモデルをカウントできることです(ポアソン)、交差分類された分割表、分布のないノンパラメトリック統計、多次元スケーリング(例:JGキャロルなど)、2グループロジスティック回帰およびコレスポンデンス分析などの定性的従属変数を含むモデル(主にオランダとフランス) 70年代と80年代に)。

2つのグループのロジスティック回帰を2つのグループの判別分析と比較検討する広範な文献があり、完全に名義的な特徴については、同等のソリューションを提供していることがわかります(たとえば、Dillon and Goldstein's Multivariate Analysis、1984)。

ロジスティック回帰の履歴に関するJS Cramerの記事(The History of Logistic Regressionhttp://papers.tinbergen.nl/02119.pdf)は、単変量、ロジスティック関数、または古典的なS字曲線の開発に由来すると説明しています。:

用語ロジスティックスの存続とデバイスの幅広い用途は、数人の学者の個人的な歴史と個々の行動によって決定的に決定されています...

ロジスティック曲線の決定論的モデルは、ベンジャミンゴンペルツ(https://en.wikipedia.org/wiki/Benjamin_Gompertz)が最初の真の非線形ロジスティックモデルを開発した論文を発表した1825年に始まりました。バビロニア人)-ゴンペルツモデルと曲線。

決定木の発明につながるこのチェーンのもう1つの重要なリンクは、コロンビアの社会学者Paul Lazarsfeldの潜在構造モデルに関する研究であったことをお勧めします。彼の作品は、30年代に始まった(ヨハネNaisbettの著書の中で述べたように、後にCIA、発生期のOSSのためのドイツの新聞の彼の内容分析と第二次世界大戦中に引き続きメガトレンド)、最終的にはアンデルセン1950年に発表されたこの方法(これを説明する潜在構造分析:調査、Erling B. Andersen、スカンジナビア統計学誌、Vol。9 、No。1、1982、pp。1-12 ):

潜在構造分析の古典的理論の基礎は、1950年にポールラザースフェルドによって第二次世界大戦中のアメリカ兵の民族中心主義の研究で開発されました。ラザースフェルドは、潜在構造モデルの概念的基盤の開発に主に興味を持ちました...しかし、ラザースフェルドによって開発された統計的手法は、かなり原始的でした...効率的な推定方法とテスト手順を導き出すための初期の試みは、コロンビア大学のラザースフェルドの同僚によって行われました、TW Anderson、論文(Psychoometrika、1954年3月、Volume 19、Issue 1、pp 1–10、潜在構造分析におけるパラメーターの推定について))、潜在クラスモデルのパラメーターの効率的な推定方法を開発しました...(潜在クラスモデルの)フレームワークを導入するために、基本概念を簡単に概説します... (1974a)...データは多重分割表の形式で与えられます ...

AIDからCHAID(後のCART)への進行、コンティンジェンシーテーブルベースのモデル(モデル内のすべての変数は名目上スケーリングされる)と、より最近の潜在クラスモデル(詳細正確に、スケールと分布の「混合物」に基づく有限混合モデル、例えば、鎌倉とラッセル、1989年、市場細分化と弾力性構造のための確率的選択モデル)モデルの残差の作成方法。古い分割表モデルの場合、完全に相互分類された表に固有のセル数が「複製」の基礎となり、したがって、クラスへの分割に使用されるモデルの残差の不均一性が形成されました。一方、最近の混合モデルは、残差の不均一性を分割するための基礎として、単一の被験者にわたる反復測定に依存しています。この応答はありません潜在クラスモデルと決定木の間の直接的な接続を提案します。AIDとCHAIDの関連性は、モデルの評価に使用される統計に要約できます。AIDは連続F分布を使用し、CHAIDはカテゴリ情報に適したカイ2乗分布を使用します。私の意見では、LCMは分割表の分析とモデリングではなく、すでに述べた他の多くの革新とともに、決定木の開発に至るパズルまたは物語の重要な部分を構成します。

CHAIDは後の開発であり、CHAIDに関するこのWikiの記事(https://en.wikipedia.org/wiki/CHAID)で概説されているように、南アフリカのGordon Kassによる1980年の博士論文で最初に提案されました。もちろん、CARTは数年後の80年代に、今では有名な分類と回帰ツリーであるBreiman等と共に出版されました。

AID、CHAID、CARTはすべて、現実の最適な表現として、ツリー状の階層的に配置された構造を想定しています。彼らは、異なるアルゴリズムと方法を使用してこれについてちょうど行きます。私にとって、この革新的な革新的連鎖の次のステップは、構造の階層的理論の出現です。このWiki記事で定義されているように、階層とは「組織の要素がランク付けされていない(非階層的)、またはさまざまな方法でランク付けされる可能性がある組織のシステムです」(https://en.wikipedia .org / wiki / Heterarchy、またはより深く、より哲学的な観点からのHeterarchyについては、Kontopoulos、The Logics of Social Structureを参照してください。)。経験的な観点から、ネットワーク構造の分析とモデリングは、構造の理解におけるこの歴史的発展の最も代表的なものです(例えば、フリーマンの著書The Development of Social Network Analysis)。多くのネットワークアナリストは、結果として得られるネットワークに階層的な配置を試みますが、これは複雑な世界での多重ネットワーク構造の経験的現実についての声明ではなく、深く根付いた無意識の仮定の表現です。

この応答は、決定ツリーの開発につながる進化の弧が、プロセスの各ステップまたはフェーズで新しい質問または既存の「最先端の」方法に対する不満を生み出し、新しいソリューションと新しいモデルが必要であることを示唆しています。この場合、2つのグループのモデリングの制限(ロジスティック回帰)と、そのフレームワークを3つ以上のグループに広げる必要性の認識に不満が見られます。基礎となる正規分布の非代表的な仮定(判別分析またはAID)、およびノンパラメトリックな分布のない仮定およびモデル(CHAIDおよびCARTなど)の採用に見られる相対的な「自由」との比較に対する不満。

示唆されているように、決定木の起源はほぼ確実に何世紀も前に長い歴史を持ち、地理的に分散しています。人類の歴史、科学、哲学、思想における複数の流れは、今日存在する多くのフレーバーの決定ツリーの開発に至るまでの物語の概要をたどることができます。私は、この歴史の短いスケッチの重要な制限を最初に認めます。

/ **補遺** /

  1. New Scientistのこの2014年の記事のタイトルは、なぜ知識をツリーにまとめることが好きなのですか?https://www.newscientist.com/article/mg22229630-800-why-do-we-love-to-organise-knowledge-into-trees/)、データ可視化の第一人者であるマヌエル・リマの本The Book of知識の視覚化とニーモニック支援としての木の千年の古い使用をたどる。疑問はほとんどないようですが、AID、CHAID、CARTなどの方法に固有の世俗的および経験的モデルとグラフィックスは、このもともと宗教的な分類の伝統の継続的な進化を表しているということです。

  2. このビデオ(CARTソフトウェアの実装者であるSalford Systemsがオンラインで投稿)、Leo Breimanへのオマージュでは、BreimanはCART方法論につながった彼の思考の発展について語っています。すべては、第二次世界大戦時代の戦艦のシルエットで塗りつぶされた壁から始まりました。

https://www.salford-systems.com/videos/conferences/cart-founding-fathers/a-tribute-to-leo-breiman?utm_source=linkedin&utm_medium=social&utm_content=3599323

  1. デニス・ケーニッヒの1936年の有限および無限グラフの理論の紹介を読んで、以前は子供向けの娯楽やパズルのソースとして見られていた分野に最初の厳密で数学的な根拠を提供すると見なされ、Tutteのノート(p.13) Konigの本の4(p。62から)は、グラフ理論のツリーに当てられています。トゥッテによるツリーの定義の説明は、「「非周期的」グラフは回路のないグラフであり、ツリーは有限連結非周期的グラフである...つまり、ツリーには、私に(そして、私はグラフ理論家でも数学者でもない)、これは、ポインカレの分析SitusまたはVeblen 'のグラフ理論とその前駆体を示唆している。 組み合わせトポロジーに関する講義は、後に統計学者のトピックとなったものの初期の知的および数学的先行を提供したかもしれません。

  2. 最初の知識の木を中心に広く270 CEが書いた、新プラトン哲学者斑岩に起因するロジックの概要 ...知識を説明し、整理するための比喩的なツリーを使用http://www.historyofinformation.com/expanded.php? id = 3857

  3. このWiki記事... https://en.wikipedia.org/wiki/Tree_of_life_(biblical)で議論されている、聖書の創世記にある知識の木への以前の参照を発見しました。創世記はおそらくこの参照に基づいて紀元前1,400年に遡ります... https://www.biblica.com/bible/bible-faqs/when-was-the-bible-written/ 関係なく、創世記は何世紀も前に来ました斑岩。


1
それが素晴らしい「この歴史の簡潔なスケッチ」であること。ルーツは50年よりも深くあるべきだと思っていましたが、アリストテレスとバビロニア人に届くとは思いませんでした。メソッドが決定木にどのように近づいたかを非常によく示しました。私はまだ、より正確な出現点を見逃しています。私は、図を見て、「まあ、それは決定木です」と言う古い本への参照を見つけたいと思っていました
;

1
私は質問といくつかの回答で使用されている命名法が好きではありません。CARTは、理由のための分類および回帰ツリーです。上記の決定木は、統計分析を含む場合と含まない場合があり、多くの場合、データではなくヒューリスティックに基づいています。元の質問は分類ツリーに関するものでした。
フランクハレル

16

CARTの大きなリファレンスは次のとおりです。

分類および回帰ツリー
レオブライマン、ジェロームフリードマン、チャールズJ.ストーン、RAオルシェン(1984)

しかし、それは確かにこのテーマに関する最初の研究ではありませんでした。

1986年の論文「Induction of Decision Trees」で、Quinlan自身が、HuntのConcept Learning System(CLS)をID3の前身であると特定しています。彼は1963年にCLSの日付を記入していますが、

EBハント、J。マリン、PJストーン、
インダクション
アカデミックプレスの実験、ニューヨーク、1966

ウィスコンシン大学のWei-Yin Lohは、決定木の歴史について書いています。があります

50年の分類および回帰ツリーWei-Yin Loh International Statistical Review(2014)、82、3、329–348 doi:10.1111 / insr.12016

また、彼がこのトピックについて行った講演のスライドデッキもあります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.