今日、「最近傍」はいつ意味がありますか?


19

1999年、バイエル等。尋ねられ、 ときに「最も近い隣人は」意味がありますか?

1999年以降、距離の平坦性がNN検索に与える影響を分析および視覚化するより良い方法はありますか?

[与えられた]データセットは、1-NN問題に対する意味のある答えを提供しますか?10 NN問題?100-NNの問題?

今日、この質問に専門家はどのようにアプローチしますか?


1月24日月曜日の編集:

「次元の増加に伴う距離フラットネス」の短縮名としての「距離ホワイトアウト」はどうですか?

「距離ホワイトアウト」を調べる簡単な方法は、2-NNを実行し、最も近い隣人と2番目に近い隣人までの距離をプロットすることです。以下のプロット は、モンテカルロによるnclustersと次元の範囲のdist 1とdist 2を示しています。この例は、スケーリングされた絶対差| dist 2 -dist 1 | に対してかなり良い距離コントラストを示しています。(相対差| dist 2 / dist 1 |→1次元→∞なので、役に立たなくなります。)

特定のコンテキストで絶対誤差を使用するか相対誤差を使用するかは、もちろん、存在する「実際の」ノイズに依存します。難しいです。

提案:常に2-NNを実行します。2つのネイバーは、近くにあるときに便利で、近くにないときに便利です。

ここに画像の説明を入力してください


7
バイエル等。NNの問題を少し異なる側面に対処しているようです。しかし、(バイナリ)分類の目的では、温和な条件下では、1-NN分類は最悪の場合、ベイズ(つまり、最適)分類器のエラー確率を漸近的に2倍にする古典的な結果です。言い換えると、最初の最近傍には、最適な分類子が行うように、ターゲットのラベルに関する「少なくとも半分の情報」が含まれます。この意味で、1-NNは非常に適切なようです。(詳細については、Cover&Hart(1967)を参照してください。Beyerらが引用していないことに驚いています。)
枢機

@ cardinal、Cover-Hartの境界は、ディメンションにまったく依存していないようです。別の側面を言うと?
-denis

はい、私はこれが真実であると信じています、そして、これは大部分、それを育てることの私のポイントでした。1-NNは、その意味でかなり関連しているように見えます。つまり、機能空間の次元で(理論上)うまく(理論的に)均一に機能するという事実は、最も近いものの動作に関係なく、最も遠い隣人は大きな次元空間にあります。Beyerがこの(古典的な)結果のすべてに気づいていたのではないかと思う。
枢機

@cardinal Cover and Hartのページ24の上部は、CoverとHartがすべてのRV x \ in Xがxについてのすべての開いた球体のプロパティを持っていると主張するステップで、その証明で問題が発生する可能性がある場所のように見えますゼロ以外のメジャー。超球のジオメトリを考慮すると、超球の内部の体積が次元の増加とともに縮小することがわかります。そのため、限界では、xの周りの開いたボールは内部にxのみを含みます。あるいは、SLLNを介して、メトリック空間Xのiid RVs xは、すべて確率1で超球面の表面にあります。
ボブ・デュラント

回答:


10

この質問に対する完全な答えはありませんが、いくつかの分析的な側面については部分的に答えることができます。警告:以下の最初の論文以降、他の問題に取り組んでいるので、気づいていない他の良いものがある可能性が非常に高いです。

最初に、彼らの論文のタイトル「いつ「最も近い隣人」が意味があるか」にもかかわらず、ベイヤー他は実際に別の質問、すなわち、NN 意味がない場合に答えたことに注目する価値があると思います。When Is 'Nearest Neighbor' Meaningful:A Converse Theorem and Implicationsで、サンプルのサイズに関するいくつかの軽度の仮定の下で、それらの定理の逆を証明しました。Journal of Complexity、25(4)、2009年8月、pp 385-397。そして、(理論上)距離の集中が生じない状況があることを示しました(例を挙げますが、本質的には、ノイズを伴わない特徴の数は次元で増加する必要があるため、もちろん実際にはほとんど発生しません)。この論文で引用されている参考文献1と7は、実際に距離の集中を緩和する方法の例を示しています。

上司のAta Kabanによる論文は、「特定のデータ削減手法の距離集中に関する認識」で次元削減手法を適用しても、これらの距離集中問題が持続するかどうかを調べてい ます。パターン認識。44、第2号、2011年2月、265-277ページ。。そこには素晴らしい議論もあります。

k


ありがとう、ボブ、+ 1。関連する質問として、分数メトリックqの値を選択するための経験則がありますか(または、別の質問として質問する必要があります)?
デニス

q=1/pp>1pl0p=1、ためからl1lq=1/pp>1p

|ajbj|q1/q<q<

p

3

Goldberger et al。による近傍成分分析にも興味があるかもしれません。

ここでは、確率的最近傍選択を介して、予想される正しく分類されたポイントを最大化する線形変換が学習されます。

副作用として、(予想される)近隣の数がデータから決定されます。


バイエル、ありがとう。「distance metric learning」は活況を呈しているようです-scholar.gooには2008年以来50のタイトルがあります。脚注、ncaのコードは、「繰り返し...良好な結果を得るために少なくとも100000」と述べています。脚注2、距離計量学習に関する作業のほとんどは、マハラノビス距離をモデル化しているようです。他の距離モデルを知っていますか?
デニス

私はNCAでさまざまな経験を持っています。通常、私にとっては非常に巧妙に収束します。LeCunによる「不変式マッピングの学習による次元削減」およびNorouziによる「コンパクトバイナリコードの最小損失ハッシュ」を確認してください。
バイエルジ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.