私の質問は、1最近傍の分類子についてであり、Hastie、Tibshirani、およびFriedman著の優れた書籍The Elements of Statistical Learningで行われた声明についてです。ステートメントは(p。465、セクション13.3)です。
「クエリポイントに最も近いトレーニングポイントのみを使用するため、1最近傍推定値のバイアスは低くなることがよくありますが、分散は高くなります。」
この本はhttp://www-stat.stanford.edu/~tibs/ElemStatLearn/download.htmlから入手できます
。
まず、バイアスと分散とは何かを定義できます。「どのようにして、次元を増やすことができるか、分散を増やすか、バイを増やすことなく」という質問から、次のようになります。
「まず第一に、分類子のバイアスは、平均された推定関数と真の関数の間の不一致ですが、分類子の分散は、平均値からの推定予測関数の予想される発散です(つまり、分類子がランダムにどの程度依存しているかトレーニングセットで行われたサンプリング)。
したがって、バイアスの存在はモデルに基本的に何か問題があることを示しますが、分散も悪いですが、高い分散を持つモデルは少なくとも平均して十分に予測できます。」
誰かが1最近傍分類器の分散が高く、バイアスが低い理由を説明できますか?