学習者の集団が可能な限り最高のモデル結果をもたらすことは公理的になったようです。たとえば、単一モデルがKaggleなどの競争に勝つ場合は、はるかにまれになっています。アンサンブルが非常に効果的である理由について理論的な説明はありますか?
学習者の集団が可能な限り最高のモデル結果をもたらすことは公理的になったようです。たとえば、単一モデルがKaggleなどの競争に勝つ場合は、はるかにまれになっています。アンサンブルが非常に効果的である理由について理論的な説明はありますか?
回答:
特定のモデルにデータをフィードし、機能を選択し、ハイパーパラメーターなどを選択します。現実と比較して、3種類の間違いを犯します。
アンサンブルは、これらのモデルの多くを平均化します。サンプリングバイアスによるバイアスは明らかな理由で修正されません。モデルの複雑さのバイアスを修正できますが、行われる分散の間違いはモデルによって大きく異なります。特に低相関モデルは、この領域で非常に異なるミスを犯します。特定のモデルは、機能空間の特定の部分でうまく機能します。これらのモデルを平均化することにより、この分散をかなり減らすことができます。これが、アンサンブルが輝く理由です。
選択した答えは素晴らしいですが、次の2つを追加したいと思います。
前のイベントの知識に基づいてシーケンス内の次のイベントを予測することを意味する場合、最適な予測の基本的な理論があります。ソロモノフ予測(Solomonoff 1964)は、「絶対最小データ量のみで計算可能なシーケンスを正しく予測することを学習する」など、いくつかの意味で最適であることが証明されています。(Hutter、Legg&Vitanyi 2007)プログラムのコルモゴロフの複雑さと、プログラムがこれまでにデータに割り当てる確率に従って、既存のデータを使用して、エピキュリアン(「すべての理論を保持」)とオッカム(「単純な理論を優先」)の哲学をベイジアンフレームワークで組み合わせます。
Solomonoff予測の最適性の特性は、参照する堅牢な結果を説明します。モデル、ソース、またはエキスパートの平均化は予測を改善し、平均化された予測は最高の単一予測子よりも優れています。実際に見られるさまざまなアンサンブル手法は、ソロモノフの予測に対する計算可能な近似と見なすことができ、MML(Wallace 2005)などのいくつかは明示的に関係を探りますが、ほとんどはそうではありません。
Wallace(2005)は、Solomonoff予測子はa約的ではなく、モデルの無限のプールを保持しているが、予測力の大部分は必然的に比較的小さなモデルセットに分類されると指摘しています。一部のドメインでは、単一の最良モデル(またはほとんど区別できないモデルのファミリー)が予測力の大部分を占め、一般的なアンサンブルを上回る場合がありますが、理論がほとんどない複雑なドメインでは、ほとんどの場合、単一のファミリーは事後確率の大部分を捕捉しません。そのため、もっともらしい候補を平均化することで予測が改善されるはずです。Netflix賞を獲得するために、Bellkorチームは450を超えるモデルをブレンドしました(Koren 2009)。
人間は通常、単一の良い説明を求めます。物理学のような「高理論」領域では、これらはうまく機能します。確かに、それらが根本的な因果ダイナミクスをキャプチャする場合、それらはほぼ無敵であるべきです。しかし、利用可能な理論が現象(映画の推薦や地政学など)に厳密に適合しない場合、単一のモデルはパフォーマンスが低下します。すべてが不完全であるため、支配するべきものはありません。したがって、最近のアンサンブル(機械学習用)および群衆の知恵(専門家用)、およびIARPA ACEなどのプログラムの成功、特にGood Judgement Project(Tetlock&Gardiner 2015)の重要性。