相互検証によるKNNパラメーター調整:スコア描画


7

バイナリ分類にKNNメソッドを使用しようとしています。最良の 'k'パラメーター(アルゴリズムが調べる近傍の量)を見つけようとするとき、トレーニングセットでモデルをトレーニングし、データで取得した別の検証セットでその精度を調べます。この検証セットには12個のサンプルしかないため、3 k(1,3,5)の精度が引き込まれます。

今、私はこれらの3 kの1つを決定的なモデルに選択する方法を探しています。私は次のアプローチを念頭に置いていました。3kの場合、トレーニングセットの特定のKに対してK分割交差検証を行い、ここで平均精度が最も高いものを探します。これはまともなアプローチですか、それとももっと良い選択肢がありますか?また、ランダムなk(1、3、または5)を選択することも考えました。これは、「検証手順」で3のいずれかを選択できることが示されているためです。

回答:


7

この問題は、同じ数の正しい予測を達成することにより、複数のモデルを結び付ける可能性がある小さなテストセットがある場合に発生します。

あなたが最初に言った方法がすべきです。CVでは、各モデルが各トレーニングサンプルを1回参照するため、3つのモデルが同じ精度を持つことはまずないと考えます。これが続く場合は、無作為に選択しても安全です(中間要素なので3にします)。


1

Occamの原則は、可能な限り単純なモデルを採用することを推奨しています。だからあなたはそれのために行くべきです。しかし、モデルの一般化をよりよく理解するには、ネストされた交差検証を使用することをお勧めします。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.