KNN:1最近傍


9

私の質問は、1最近傍の分類子についてであり、Hastie、Tibshirani、およびFriedman著の優れた書籍The Elements of Statistical Learningで行われた声明についてです。ステートメントは(p。465、セクション13.3)です。

「クエリポイントに最も近いトレーニングポイントのみを使用するため、1最近傍推定値のバイアスは低くなることがよくありますが、分散は高くなります。」

この本はhttp://www-stat.stanford.edu/~tibs/ElemStatLearn/download.htmlから入手できます

まず、バイアスと分散とは何かを定義できます。「どのようにして、次元を増やすことができるか、分散を増やすか、バイを増やすことなく」という質問から、次のようになります

「まず第一に、分類子のバイアスは、平均された推定関数と真の関数の間の不一致ですが、分類子の分散は、平均値からの推定予測関数の予想される発散です(つまり、分類子がランダムにどの程度依存しているかトレーニングセットで行われたサンプリング)。

したがって、バイアスの存在はモデルに基本的に何か問題があることを示しますが、分散も悪いですが、高い分散を持つモデルは少なくとも平均して十分に予測できます。」

誰かが1最近傍分類器の分散が高く、バイアスが低い理由を説明できますか?

回答:


13

モデルを1最近傍点にのみ適合させるため、バイアスは低くなります。つまり、モデルはトレーニングデータに非常に近くなります。

1最近傍点のみで最適化すると、データのノイズをモデル化する確率が非常に高くなるため、分散は高くなります。上記の定義に従って、モデルはトレーニングデータとして選択したデータポイントのサブセットに大きく依存します。選択したデータポイントをランダムに再シャッフルすると、モデルは反復ごとに劇的に異なります。そう

その平均値からの推定予測関数の予想される発散(つまり、分類器がトレーニングセットで行われたランダムサンプリングにどの程度依存しているか)

毎回モデルが異なるため、高い値になります。

一般に、k-NNモデルは、データの特定の点をトレーニングセットのN個の最も近いデータ点に適合させます。1-NNの場合、このポイントは他の1つのポイントのみに依存します。たとえば、サンプルを赤と青の2つのグループ(分類)に分割するとします。最も近い4つの近傍が赤、青、青、青(pまでの距離の昇順)になる特定のポイントpに対してモデルをトレーニングするとします。次に、4-NNはポイントを青に分類しますが(青が3回、赤が1回)、1-NNモデルはそれを赤に分類します。これは、赤が最も近い点であるためです。これは、モデルがトレーニングデータに本当に近いため、バイアスが低いことを意味します。モデルとトレーニングデータの間のRSSを計算すると、0に近くなります。これとは対照的に、モデルは非常に敏感で波打つため、モデルの分散は高くなります。上記で指摘したように、トレーニングセットをランダムにシャッフルすると、モデルが劇的に変わる可能性があります。対照的に、10-NNはそのような場合により堅牢ですが、硬直する可能性があります。どのkを選択するかは、データセットによって異なります。これは、Bias-Variance-Tradeoffは、この問題に正確に関連しています。


@alexviiに感謝します。新しいポイントの場合、この分類子は、テストセットを「よく模倣する」新しいポイントをもたらすと言っています。そして、テストセットが良ければ、予測は真実に近くなり、バイアスが低くなりますか?正しい?それとも私は何かを逃していますか?
FredikLAa

私は私のポイントをより明確にするためにいくつかの情報を追加しました。
Alex VII

もう1つ:最も近いものと比較して最も近い3つの近傍を使用する場合、あなたが正しいと「確信」できなくなり、「新しい」観測値を他の点と「矛盾する」可能性がある点に分類しなくなりますか、したがってバイアスを下げる?
FredikLAa

これは、ページのほぼ終わりにあるK最近傍点の下のWikipediaページで非常によく説明されています。
Alex VII

11

1-Nearest Neighbor分類器は、実際には最も複雑な最近傍モデルであることを覚えておいてください。最も複雑なことは、最もギザギザの決定境界があり、オーバーフィットする可能性が最も高いということです。N最近傍分類子(N =トレーニングポイントの数)を使用する場合、すべてを過半数クラスとして分類します。データの順列が異なっても同じ答えが得られ、分散がゼロ(すべてがまったく同じ)であるが、バイアスが大きい(すべてが一貫して間違っている)モデルのセットが提供されます。Kの設定を小さくすると、トレーニングデータに近づきます(バイアスが低くなります)が、モデルは、選択した特定のトレーニング例(分散が大きい)により大きく依存します。


@Mattに感謝します。1つの質問:バイアスが最も近い1のネイバーのバイアスが最も低いことをどのようにして知っていますか?3つの最近傍を使用しない方がバイアスの点で優れていることをどのようにして知っていますか?
FredikLAa

サンプル空間を完全にカバーする非常に大量のデータがある離散kNN問題を想像してください。テストポイントは、最も近い近傍(実際にはテストポイントのコピー)と比較することにより、正しく分類できます。この場合、バイアスはゼロです。より多くのネイバーを使用すると、バイアスの増加の結果、誤分類が発生する可能性があります。この例は、トレーニングセットのサイズが非常に大きい場合に当てはまります。実際には、少数の隣接ノードで実験的に低いバイアスを達成することは可能かもしれませんが、多くのデータの一般的な傾向は、隣接セルが少ない->バイアスが低いということです。
Nuclear Wang

3

これは、バイアスと分散についての非常に興味深いブログ投稿です。セクション3.1では、knnアルゴリズムを扱い、kが小さいと分散が大きくなり、バイアスが小さくなる理由を説明します。

図5は非常に興味深いものです。kの増加中にモデルがどのように変化するかをリアルタイムで確認できます。低kの場合、バイアスが低くなりますが分散が大きくなる、過剰適合(孤立した「島」がある)がたくさんあります。非常に高いkの場合、分散は小さいがバイアスが大きい滑らかなモデルが得られます。この例では、kの値が10〜20の場合、十分に一般的で(比較的低い分散)、十分に正確な(比較的低いバイアス)降下モデルが得られます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.