単位ボールからのN個のサンプルの原点に最も近い中央値の式の説明


11

統計的学習の要素、問題は、高次元空間におけるK-NNとハイライトの問題に導入されます。次元の単位ボールに均一に分布するデータポイントがあります。pNp

原点から最も近いデータポイントまでの距離の中央値は、次の式で与えられます。

d(p,N)=(1(12)1N)1p

場合は、ボールの半径の半分にダウン式の休憩、と私は最も近い点として国境に近づく方法を見ることができため、高い次元でのKNNブレークダウンの後ろに直感を作り、。しかし、なぜこの式がNに依存するのか理解できません。誰かが明確にしていただけませんか?p N=1p

また、この本は、「...予測はトレーニングサンプルのエッジ近くでははるかに困難です。隣接するサンプルポイント間を補間するのではなく、それらから外挿する必要がある」と述べて、この問題についてさらに取り上げています。これは深遠な発言のようですが、私はそれが何を意味するのか理解できません。誰かが言い直すことができますか?


1
表示された方程式を少し編集する必要があります。その指数は、分子内のそのにのみ適用できますか、それとも今のように見えますか、それとも全体に適用しますか? 111N112
Dilip Sarwate、2015年

1
「超球」(では次元多様体)を「単位球」(次元を持つ)と区別するのに役立ちます。超球はボールの境界です。あなたのタイトルが言うように、全ての点からサンプリングされた場合は超球の定義による- -そして、彼らはすべての距離持つ原点から、中央値の距離がある、すべてが平等に近い原点にしています。 p1p11Rpp1p11
whuber

@DilipSarwate全体に適用されます。この本には、ので、 N=500P=10DPN0.5212N=500,p=10d(p,N)0.52
user64773

回答:


8

半径次元ハイパーボールの体積は、比例する体積を持ちます。r r pprrp

したがって、原点からの距離を超える体積の割合はです。r pk r pkrrp(kr)prp=1kp

ランダムに選択されたすべてのポイントが原点からの距離を超える確率は、です。最も近いランダムな点までの距離の中央値を取得するには、この確率をます。つまり、k r 1 k p N 1Nkr(1kp)N1kpN=112

(1kp)N=12
k=(1121/N)1/p.

直感的にこれはある種の意味があります。ランダムな点が多いほど、原点に最も近い点に近いと予想されるため、は減少関数であると期待する必要があります。ここではの減少関数である、そうの増加関数であり、、従ってであります減少関数、その番目の根。N 2 1 / N N 1kN21/NN N11121/NN Np1121/NNp


ああ、それを見る良い方法です。2番目の質問の引用を再解釈できますか?
user64773

高次元では、予測するポイントが実際には球の端にあるかのようにトレーニングデータから遠く離れているため、実際には内挿ではなく外挿しているため、不確実性がはるかに大きいことが示唆されているのではないかと思います。しかし、私は本当に知りません。
Henry

わかりません-この式がすべてのポイントの確率がkrよりも遠くなる確率である理由はわかりますが、この確率を1/2に設定すると中央距離が得られるのはなぜですか?
ihadanny 2015年

1
@ihadanny:値は、すべてのポイントがさらに離れている確率がである半径の割合を、したがって、少なくとも1つの点が近い確率は、は最も近い点の距離の分布の中央値です。N1k=(1121/N)1/pN 1112 kr112=12kr
Henry

中央値の定義、半分は大きく、半分は小さい。
グランデイズミリアン

1

そして今、手を振ることなく

  1. iid rvの任意のシーケンスについて、 ここでは一般的なCDFF

    P(min1iNYi>y)=(1F(y))N,
    F
  2. したがって 、次元の単位ボールに iidが均一に分散されたがある場合、 ここで、距離の共通のCDFであり、。最後に、単位ボール内の均一に分布した点のCDF、は何ですか?ポイントが単位半径のボール内の半径rのボール内にある確率は、体積の比率と等しくなります。NXip

    P(min1iN||Xi||>r)=(1F(r))N,
    F||Xi||,i=1,2,,NFRp

F(r)=P(||Xi||r)=Crp/(C1p)=rp

したがって、解決策は

1/2=P(min1iN||Xi||>r)=(1rp)N

です

r=(1(1/2)1/N)1/p.

また、サンプルサイズへの依存に関する質問。以下のためボールはより多くのポイントでいっぱいになるように固定された、天然に由来する最小の距離は小さくなるはずです。pNp

最後に、ボリュームの比率に誤りがあります。以下のように見えます単位球のボリュームでなければなりません。R pkRp


0

簡潔ですが言葉で:

私たちは、次元の単位半径の原点にあるボールの均一に分散された点で、原点に最も近い点の中央距離を見つけたいと考えています。最小距離がを超える確率(この数量式[1]と呼びます)は、統計的独立性のため、単一の均一に分布した点がを超える確率の乗です。後者は、1から単一の均一に分布した点が未満になる確率を引いたものです。後者は、単位半径のボールに対する半径のボールの体積の比率、またはです。式[1]を次のように書くことができますNprNthrrrrp

P(min1iN||Xi||>r)=(1rp)N.

距離の最小値の分布の中央値を見つけるには、上記の確率を設定し、を解いて答えを取得します。1/2r

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.