分類子を高いバイアスまたは高い分散であるとどのように決定しますか?


7

分類子のバイアスと分散により、分類子がデータをそれぞれ過小および過大に適合できる程度が決まります。高バイアスまたは高分散として特徴付けられる分類子をどのように決定できますか?

バイアス分散のトレードオフとその分解とは何か、トレーニングデータとモデルにどのように依存する可能性があるかについては、かなり明確です。たとえば、データにターゲット関数に関連する十分な情報が含まれていない場合(単純に言えば、サンプルがないため)、分類子は誤った仮定を行う可能性があるため、高いバイアスを経験します。逆に、分類子が所定のトレーニングデータ(たとえば、複数のエポックを実行する多数のノードを含むANN、または深さが高い決定木)にぴったりと適合している場合、見えないものを予測するために一般化できないため、分散が大きくなります。サンプル。

ただし、高バイアス低分散分類器、または低バイアス高分散分類器の選択についての講義を見る場合があります。たとえば、ナイーブベイズは高バイアス低分散分類器と見なされます(条件付き独立性の仮定によるものと思われます)。これをどのように決定しますか?では、SVM、ID3、ランダムフォレスト、および NNをどのように特徴付けるのでしょうか。それらは高いバイアスまたは高い分散ですか? k

回答:


2

アルゴリズムの本質的な品質に興味があると思います。これは重要な質問であり、活発な研究のトピックです。

アルゴリズムのバイアスと分散の限界は、アルゴリズムの安定性の概念によって証明できます。以下を参照してください:

アリゾナ紙は、ほぼ完全に不偏であるK-NNおよび1-NNアルゴリズムの証明を示しています(ページ4)。他の種類のアルゴリズムについては、他の論文を読む必要があります。まだすべてのアルゴリズムに証明があるわけではなく、対応する境界を持つ多くの異なる形式の安定性があることに注意してください。

別の(ただし関連する)アプローチは、VC理論を検討することですhttps://en.wikipedia.org/wiki/Vapnik%E2%80%93Chervonenkis_theory

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.