分類子のバイアスと分散により、分類子がデータをそれぞれ過小および過大に適合できる程度が決まります。高バイアスまたは高分散として特徴付けられる分類子をどのように決定できますか?
バイアス分散のトレードオフとその分解とは何か、トレーニングデータとモデルにどのように依存する可能性があるかについては、かなり明確です。たとえば、データにターゲット関数に関連する十分な情報が含まれていない場合(単純に言えば、サンプルがないため)、分類子は誤った仮定を行う可能性があるため、高いバイアスを経験します。逆に、分類子が所定のトレーニングデータ(たとえば、複数のエポックを実行する多数のノードを含むANN、または深さが高い決定木)にぴったりと適合している場合、見えないものを予測するために一般化できないため、分散が大きくなります。サンプル。
ただし、高バイアス低分散分類器、または低バイアス高分散分類器の選択についての講義を見る場合があります。たとえば、ナイーブベイズは高バイアス低分散分類器と見なされます(条件付き独立性の仮定によるものと思われます)。これをどのように決定しますか?では、SVM、ID3、ランダムフォレスト、および NNをどのように特徴付けるのでしょうか。それらは高いバイアスまたは高い分散ですか?