ハイパーキューブのほとんどの点が境界にあると言うとどういう意味ですか?


12

50次元のハイパーキューブがある場合。そして、その境界をまたはで定義します。ここで、はハイパーキューブの次元です。次に、ハイパーキューブの境界上のポイントの比率を計算すると、ます。どういう意味ですか?それは残りのスペースが空であることを意味しますか?場合はポイントの境界にあるその後、キューブ内のポイントが均一に分布してはいけませんか?0<xj<0.05x j 0.995 99 0.95<xj<1xj0.99599


2
いいえ、それは周辺がより広々としていることを意味し、効果は次元に見合っています。多少直観に反しています。この現象は、ランダムなノードのペア間の距離の分布に影響を与えます。これは、高次元空間で最近傍をクラスター化または計算する場合に関連します。
Emre

線分上のポイントのどの割合が境界に近いかを計算します。次に、正方形を指します。次に、立方体を指します。それらについて何と言えますか?
user253751

回答:


27

ハイパーキューブには無限に多くのポイントが含まれるため、「ハイパーキューブ内のポイント99」といえば、少し誤解を招く可能性があります。代わりに音量について話しましょう。

ハイパーキューブの体積は、その辺の長さの積です。50次元の単位超立方体のために我々が得る

全容積=1×1××150 回=150=1。

ここで、ハイパーキューブの境界を除外して、 ' interior ' を見てみましょう(数学用語のinteriorは非常に異なる意味を持つため、これを引用符で囲みます)。0.05 < x 1 < 0.95を満たす 点バツ=バツ1バツ2バツ50のみを保持します

0.05<バツ1<0.95 そして 0.05<バツ2<0.95 そして  そして 0.05<バツ50<0.95。
この「インテリア」のボリュームは?さて、「インテリア」もハイパーキューブであり、各辺の長さは0.9=0.950.05 ... 2次元と3次元でこれを想像するのに役立ちます)。ボリュームがあるので、
内容積=0.9×0.9××0.950 回=0.9500.005。
'境界'のボリューム( 'のない単位超立方体として定義されるインテリアは、「)である10.9500.995。

これは、50次元のハイパーキューブの体積の99.5がその「境界」に集中していることを示しています。


フォローアップ: ignatiusは、これが確率とどのように関連しているかについて興味深い質問を投げかけました。例を示します。

50の入力パラメーターに基づいて住宅価格を予測する(機械学習)モデルを思いついたとします。50個の入力パラメーターはすべて独立しており、01の間で均一に分散さ01

どの入力パラメーターも極端でない場合、モデルは非常にうまく機能するとします。すべての入力パラメーターが0.05から0.95間にある限り、モデルは住宅価格をほぼ完全に予測します。ただし、1つ以上の入力パラメーターが極端(0.05または0.95より大きい)である場合、モデルの予測はひどいものになります。

与えられた入力パラメータは、10確率で極端です。明らかにこれは良いモデルですよね?番号!確率の少なくとも一つの50のパラメータが極端ではある10.9500.995。 したがって、99.5のケースで、モデルの予測はひどいものになります。

経験則: 高次元では、極端な観察が原則であり、例外ではありません。


7
OPの引用を使用する価値があります。「それは、残りのスペースが空であることを意味しますか?」と回答:いいえ、それは残りのスペースが比較的小さいことを意味し ます。。。またはあなた自身の言葉で同様。。。
Neil Slater

2
「次元の呪い」という言葉の本当に良い説明
イグナティウス'19 / 12/18

次の点が正しいかどうか疑問に思います。この例で、一連のフィーチャが50次元のそれぞれで[0,1]に沿って均等に分布している場合、(99.5%-0.5%)=ボリュームの99%(ハイパーキューブフィーチャ)スペース)各機能の10%の値のみをキャプチャします
火曜日

「与えられた入力パラメーターはどれも極端なもので、確率はわずか5%です。」この確率は10%だと思います。
Rodvi

@Rodvi:もちろんです、ありがとうございます!修正しました。
エリアスストレーレ

8

下の次元でもパターンをはっきりと見ることができます。

一次元。長さが10で境界が1の線を考えます。境界の長さは2で、内部は8、1:4の比率です。

2次元。辺10の正方形を取り、境界1をもう一度取ります。境界の面積は36、内部は64、比率は9:16です。

三次元。同じ長さと境界。境界の体積は488、内部は512、61:64です。すでに境界は内部とほぼ同じスペースを占めています。

4次元、境界は5904、内部は4096-境界が大きくなりました。

境界の長さがますます短くなったとしても、寸法が増加するにつれて、境界体積は常に内部を追い越します。


0

それを "理解"するための最良の方法(人間にとっては不可能ですが)は、n次元のボールとn次元の立方体の体積を比較することです。n(次元)の増加に伴い、ボールのすべてのボリュームが「漏れ出し」、立方体の隅に集中します。これは、コーディング理論とそのアプリケーションで覚えておくと便利な一般原則です。

それに関する最良の教科書説明は、リチャードW.ハミングの著書「コーディングと情報理論」(3.6幾何学的アプローチ、p 44)にあります。

Wikipedia短い記事では、n次元の単位立方体の体積が常に1 ^ nであることを覚えておくと、同じことが簡単にわかります。

お役に立てば幸いです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.