KNNに最適なKを選択する


15

5倍のCVを実行して、KNNに最適なKを選択しました。そして、Kが大きくなればなるほど、エラーは小さくなるようです...

ここに画像の説明を入力してください

申し訳ありませんが、伝説はありませんでしたが、異なる色は異なる試行を表しています。合計5つあり、それらの間にはほとんど差がないようです。Kが大きくなると、エラーは常に減少するようです。それでは、どうすれば最高のKを選択できますか?ここでは、K = 3の後にグラフのレベルがオフになるため、K = 3が適切な選択でしょうか?


クラスターを見つけたら、どうしますか?最終的には、クラスター化アルゴリズムによって生成されたクラスターを使用して何をするかが、より多くのクラスターを使用して小さなエラーを取得する価値があるかどうかを判断するのに役立ちます。
ブライアンボーチャーズ14年

高い予測力が必要です。この場合... K = 20で行くべきですか?エラーが最も少ないため。ただし、実際にはKのエラーを最大100までプロットしました。100はすべてのエラーの中で最小です...したがって、Kが増加するにつれてエラーが減少すると考えられます。しかし、良いカットオフポイントが何であるかはわかりません。
エイドリアン14

回答:


12

kkkkk CVエラーの差が無視できる場合、より小さいものよりも小さい。

CVエラーが再び上昇し始めない場合は、おそらく属性が情報価値がなく(少なくともその距離メトリックについて)、一定の出力を提供することが最善であることを意味します。



0

クラスターの数の背後に物理的または自然な意味はありますか?私が間違っていなければ、Kが増加するにつれて誤差が減少するのは当然のことです-過剰適合のようなものです。最適なKを狙って釣りをするよりも、おそらくドメインの知識や直感に基づいてKを選ぶ方が良いでしょうか?


この答えは、k-nn分類または回帰よりもk-meansクラスタリングに適していると思います。
ディクラン有袋類14

kが大きすぎる場合、それが不足しているため、エラーが再び発生します。
ジェームズ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.