k最近傍のVC次元


10

kが使用されるトレーニングポイントの数と等しい場合、k最近傍アルゴリズムのVCディメンションは何ですか?


コンテキスト:この質問は私が受講したコースで尋ねられ、そこに与えられた回答は0でした。しかし、なぜそうなのか理解していません。私の直感は、すべてのポイントが最初のモデルに従って1つのクラスに属し、別のクラスに属しているとラベル付けされるように、2つのモデル(つまり、トレーニングポイントのセット)を選択できるため、VCディメンションは1である必要があるということです2番目のモデルによれば、単一のポイントを粉砕することが可能であるはずです。私の推論のどこに間違いがありますか?

回答:


2

アルゴリズムは次のとおりです。k=使用されるトレーニングポイントの数を含むk最近傍アルゴリズム。これをjms-k-nearest-neighborと定義します。

VCディメンションは、トレーニングエラー 0のアルゴリズムによって粉砕できるトレーニングポイントの最大数であるため、jms-k-nearest-neighborのVCディメンションはkまたは0のみです。

1トレーニングインスタンス=> k = 1:トレーニング中、jms-1-nearest-neighborはこのインスタンスを正確に格納します。まったく同じトレーニングセットでの適用中、1つのインスタンスは格納されているトレーニングインスタンスに最も近いため(同じであるため)、トレーニングエラーは0です。

だから私は同意する、VCの次元は少なくとも1です。

2つのトレーニングインスタンス=> k = 2:ラベルが異なる場合にのみ問題が発生する可能性があります。この場合の問題は、クラスラベルの決定がどのように行われるかです。多数決では結果は得られません(VC = 0?)。距離で逆重み付けされた多数決を使用すると、VC次元は2になります(同じトレーニングインスタンスを異なるラベルで2回持つことはできないと仮定すると、すべてのアルゴリズムのVC次元が0になる場合(私は推測します)。

標準のk最近傍アルゴリズムはありません。実装の詳細については、基本的な考え方は同じですが、フレーバーが異なるファミリーです。

使用されるリソース:Andrew MooreによるVCディメンションスライド


ありがとう、それは非常に役に立ちました。モデルを評価するインスタンスが、パラメーターのトレーニングに使用されるインスタンスと同じである必要があることを知りませんでした。私はあなたの答えについて少し考え、後でそれを受け入れる必要があります。
ジュリアスマクシミリアンスティーン2015
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.