タグ付けされた質問 「k-nearest-neighbour」

k-Nearest-Neighbor Classifiersこれらの分類器はメモリベースであり、適合させるためのモデルを必要としません。クエリポイントx0を指定すると、x(r)、r = 1、...、kのxに最も近いトレーニングポイントを見つけ、k個の近傍間で多数決を使用して分類します。

2
相互検証によるKNNパラメーター調整:スコア描画
バイナリ分類にKNNメソッドを使用しようとしています。最良の 'k'パラメーター(アルゴリズムが調べる近傍の量)を見つけようとするとき、トレーニングセットでモデルをトレーニングし、データで取得した別の検証セットでその精度を調べます。この検証セットには12個のサンプルしかないため、3 k(1,3,5)の精度が引き込まれます。 今、私はこれらの3 kの1つを決定的なモデルに選択する方法を探しています。私は次のアプローチを念頭に置いていました。3kの場合、トレーニングセットの特定のKに対してK分割交差検証を行い、ここで平均精度が最も高いものを探します。これはまともなアプローチですか、それとももっと良い選択肢がありますか?また、ランダムなk(1、3、または5)を選択することも考えました。これは、「検証手順」で3のいずれかを選択できることが示されているためです。

2
最近傍が無意味になる高次元データセットの生成
論文では、「「Nearest Neighbor」はいつ意味があるのですか?」 特定の広範な条件(データとクエリの分布、またはワークロードの観点から)の下で、次元が増加するにつれて、最近傍への距離が最遠距離への距離に近づくことを示します。言い換えれば、異なるデータポイントまでの距離のコントラストは存在しなくなります。これが発生するという私たちが特定した条件は、他の作業が想定している独立して同一に分散された(IID)ディメンションの想定よりもはるかに広いものです。 私の質問は、この効果を生成するデータセットをどのように生成する必要があるかです。 私は、各次元について0〜255の範囲の乱数で1000次元の3つのポイントを作成しましたが、ポイントは異なる距離を作成し、上記の内容を再現しません。寸法(10、100、1000など)と範囲([0,1]など)を変更しても、何も変更されないようです。私はまだ異なる距離を取得しますが、クラスタリングアルゴリズムなどでは問題になりません! 編集:私の実験に基づいて、より多くのサンプルを試してみましたが、ポイント間の距離が数値に収束していません。逆に、ポイント間の最大距離と最小距離がよりはっきりしています。これは、次元の呪いのためにもっと直感が必要という最初の投稿に書かれていることや、https://en.wikipedia.org/wiki/Clustering_high-dimensional_data#Problemsのように同じことを主張する他の多くの場所にも反しています。誰かがコードや実際のデータセットを使って、そのような効果が実際のシナリオに存在することを私に示すことができれば、私はそれでも感謝します。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.