なぜアンサンブルはそれほど不当に効果的ですか


14

学習者の集団が可能な限り最高のモデル結果をもたらすことは公理的になったようです。たとえば、単一モデルがKaggleなどの競争に勝つ場合は、はるかにまれになっています。アンサンブルが非常に効果的である理由について理論的な説明はありますか?


1
私の推測では中央極限定理だろうが、正当化する理由はない。

回答:


13

特定のモデルにデータをフィードし、機能を選択し、ハイパーパラメーターなどを選択します。現実と比較して、3種類の間違いを犯します。

  • バイアス(モデルの複雑さが低すぎるため、データのサンプリングバイアスが原因)
  • 分散(データのノイズ、データの過剰適合による)
  • 予測しようとしている現実のランダム性(またはデータセットに予測機能がない)

アンサンブルは、これらのモデルの多くを平均化します。サンプリングバイアスによるバイアスは明らかな理由で修正されません。モデルの複雑さのバイアスを修正できますが、行われる分散の間違いはモデルによって大きく異なります。特に低相関モデルは、この領域で非常に異なるミスを犯します。特定のモデルは、機能空間の特定の部分でうまく機能します。これらのモデルを平均化することにより、この分散をかなり減らすことができます。これが、アンサンブルが輝く理由です。


6

選択した答えは素晴らしいですが、次の2つを追加したいと思います。

  1. 人間の予測を平均すると、個々の予測よりも優れた予測が得られることが観察されています。これは群衆知恵として知られています。さて、あなたはそれは一部の人々が異なる情報を持っているためだと主張することができます。したがって、あなたは事実上情報を平均化しています。ただし、これは、jarファイル内のBeanの数を推測するなどのタスクにも当てはまります。私は、データマイニングモデルについて上記のいくつかの理由に関係していると仮定します。
  2. ニューラルネットワークのドロップアウト法(トレーニング中の各反復で、ニューラルネットワークのチャンクのみを使用する)などのいくつかの手法は、ニューラルネットワークのアンサンブルに似た結果をもたらします。理論的な理由は、ノードに他のノードと同じ予測機能を効果的に実行させ、メタアンサンブルを効果的に作成することです。これは、従来のモデルにおけるアンサンブルの利点のいくつかを紹介できるかもしれないという点を強調するために言っています。

6

アンサンブルは、理論的および実用的な理由で予測で勝ちます。

前のイベントの知識に基づいてシーケンス内の次のイベントを予測することを意味する場合、最適な予測の基本的な理論があります。ソロモノフ予測(Solomonoff 1964)は、「絶対最小データ量のみで計算可能なシーケンスを正しく予測することを学習する」など、いくつかの意味で最適であることが証明されています。(Hutter、Legg&Vitanyi 2007)プログラムのコルモゴロフの複雑さと、プログラムがこれまでにデータに割り当てる確率に従って、既存のデータを使用して、エピキュリアン(「すべての理論を保持」)とオッカム(「単純な理論を優先」)の哲学をベイジアンフレームワークで組み合わせます。

Solomonoff予測の最適性の特性は、参照する堅牢な結果を説明します。モデル、ソース、またはエキスパートの平均化は予測を改善し、平均化された予測は最高の単一予測子よりも優れています。実際に見られるさまざまなアンサンブル手法は、ソロモノフの予測に対する計算可能な近似と見なすことができ、MML(Wallace 2005)などのいくつかは明示的に関係を探りますが、ほとんどはそうではありません。

Wallace(2005)は、Solomonoff予測子はa約的ではなく、モデルの無限のプールを保持しているが、予測力の大部分は必然的に比較的小さなモデルセットに分類されると指摘しています。一部のドメインでは、単一の最良モデル(またはほとんど区別できないモデルのファミリー)が予測力の大部分を占め、一般的なアンサンブルを上回る場合がありますが、理論がほとんどない複雑なドメインでは、ほとんどの場合、単一のファミリーは事後確率の大部分を捕捉しません。そのため、もっともらしい候補を平均化することで予測が改善されるはずです。Netflix賞を獲得するために、Bellkorチームは450を超えるモデルをブレンドしました(Koren 2009)。

人間は通常、単一の良い説明を求めます。物理学のような「高理論」領域では、これらはうまく機能します。確かに、それらが根本的な因果ダイナミクスをキャプチャする場合、それらはほぼ無敵であるべきです。しかし、利用可能な理論が現象(映画の推薦や地政学など)に厳密に適合しない場合、単一のモデルはパフォーマンスが低下します。すべてが不完全であるため、支配するべきものはありません。したがって、最近のアンサンブル(機械学習用)および群衆の知恵(専門家用)、およびIARPA ACEなどのプログラムの成功、特にGood Judgement Project(Tetlock&Gardiner 2015)の重要性。

参照資料

  • M.ハッター、S。レッグ、P。ヴィタニー、「アルゴリズムの確率」、Scholarpedia、vol。2、2007、p。2572。
  • Y.コーレン、「Netflix大賞のBellKorソリューション」、2009年。
  • ソロモノフ、レイ(1964年3月)。「帰納的推論の形式理論I」(PDF)。情報とコントロール7(1):1–22。doi:10.1016 / S0019-9958(64)90223-2。
  • ソロモノフ、レイ(1964年6月)。「帰納的推論の形式理論II」(PDF)。情報とコントロール7(2):224–254。doi:10.1016 / S0019-9958(64)90131-7。
  • PE Tetlock、専門家の政治判断:それはどれほど良いですか?プリンストン大学出版局、2005年。
  • Tetlock、PE、およびGardner、D。(2015)。超予測:予測の技術と科学。ニューヨーク:クラウン。
  • CS Wallace、最小メッセージ長による統計的および帰納的推論、Springer-Verlag、2005年。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.