ご質問
- ツリーが浅いか深いかに依存しますか?または、ツリーの深さ/レベルに関係なく、これを言うことができますか?
- バイアスが低く、分散が大きいのはなぜですか?直感的かつ数学的に説明してください
ご質問
回答:
パーティーに少し遅れましたが、この質問には具体的な例を使って答えを使うことができると思います。
このすばらしい記事:bias-variance-trade-offの要約を書いて、トピックの理解に役立てました。
機械学習アルゴリズムの予測エラーは、3つの部分に分けられます。
削減できないエラー
名前が示すように、アルゴリズムとパラメーターの選択に関係なく、修正できないエラーコンポーネントです。削減できないエラーは、トレーニングセットでキャプチャされない複雑さによるものです。これは学習セットにはない属性ですが、結果に関係なく結果へのマッピングに影響します。
バイアスエラー
バイアスエラーは、ターゲット関数に関する仮定によるものです。ターゲット関数についてより多くの仮定(制限)を行うと、より多くのバイアスが導入されます。ターゲット関数により多くのルールを課したため、バイアスが高いモデルは柔軟性が低くなります。
分散誤差
分散誤差は、異なるトレーニングセットに関するターゲット関数の形式の変動性です。分散セットの誤差が小さいモデルは、トレーニングセット内のいくつかのサンプルを置き換えてもほとんど変わりません。分散が大きいモデルは、トレーニングセットにわずかな変更を加えても影響を受ける可能性があります。
単純な線形回帰を検討してください。
Y=b0+b1x
明らかに、これはターゲット関数のかなり限定的な定義であるため、このモデルには高いバイアスがあります。
一方、いくつかのデータサンプルを変更した場合の分散が低いため、ターゲット関数が実行するマッピング全体に大きな変更が生じることはほとんどありません。一方、k最近傍などのアルゴリズムは、分散が大きく、バイアスが低くなります。さまざまなサンプルがKNN決定面にどのように影響するかは簡単に想像できます。
一般に、パラメトリックアルゴリズムには高いバイアスと低い分散があり、逆もまた同様です。
機械学習の課題の1つは、バイアス誤差と分散誤差の適切なバランスを見つけることです。
決定木
これらの定義が整ったので、決定木が低バイアスで高分散のモデルの例であることを確認するのも簡単です。ツリーは、ターゲット関数についてほとんど仮定を行いませんが、データの変動の影響を非常に受けやすくなっています。
ブートストラップアグリゲーションやランダムフォレストなどのアンサンブルアルゴリズムがあります。これらは、意思決定ツリーのバイアスの小さなコストで分散を減らすことを目的としています。
レベルの数が多すぎる場合、つまり複雑な決定ツリーの場合、モデルは過剰適合する傾向があります。
直感的に、このように理解できます。結果に到達する前に通過する決定ノードが多すぎる場合、つまりリーフノードに到達する前に通過するノードの数が多い場合、チェック対象の条件は乗算になります。つまり、計算は (条件1)&&(条件2)&&(条件3)&&(条件4)&&(条件5)になります。
すべての条件が満たされた場合のみ、決定が下されます。ご覧のとおり、データを継続的に絞り込んでいるので、これはトレーニングセットに非常に適しています。ツリーは、トレーニングセットに存在するデータに対して高度に調整されます。
ただし、新しいデータポイントが供給されると、パラメータの1つがわずかに逸脱しても、条件は満たされないため、間違った分岐が行われます。
決定木に低バイアスと高分散があるのはなぜですか?ツリーが浅いか深いかに依存しますか?または、ツリーの深さ/レベルに関係なく、これを言うことができますか?バイアスが低く、分散が大きいのはなぜですか?直感的かつ数学的に説明してください。
バイアスと分散
より多くのバイアス=より単純なモデルからのエラー(データにあまり適合しません)
より多くの分散=より複雑なモデルからのエラー(データにうまく適合し、データに固有のパターンに加えてノイズを学習します)
すべてが相対的です
私はすべてが相対的であると言うことから始めたいと思います。一般に、ディシジョンツリーはバイアスが低く、分散が大きいため、ランダムフォレストを使用します。同様に、より浅いツリーは、同じツリーのより深い深度よりも高いバイアスと低い分散を持ちます。
決定木の分散とランダムフォレストの比較
さて、それが解決されたので、決定木の分散がランダムフォレストよりも悪い(分散が大きく、バイアスが低い)理由を考えてみましょう。決定木アルゴリズムが機能する方法は、ツリーを下るにつれてデータが何度も分割されるため、実際の予測はより少ないデータポイントで行われます。それと比較して、ランダムフォレストは複数のツリーの決定を集約し、ランダム化によって相関の低いツリーも集約するため、モデルはより一般化されます(=>異なるデータセットでより確実に実行される=分散が低くなります)。同様に、ランダムフォレストの仮定をより単純化して、データと機能のサブセットのみを参照して単一のツリーに適合させるため、バイアスが高くなります。ところで、同様に、