50次元のハイパーキューブがある場合。そして、その境界をまたはで定義します。ここで、はハイパーキューブの次元です。次に、ハイパーキューブの境界上のポイントの比率を計算すると、ます。どういう意味ですか?それは残りのスペースが空であることを意味しますか?場合はポイントの境界にあるその後、キューブ内のポイントが均一に分布してはいけませんか?x j 0.995 99 %
50次元のハイパーキューブがある場合。そして、その境界をまたはで定義します。ここで、はハイパーキューブの次元です。次に、ハイパーキューブの境界上のポイントの比率を計算すると、ます。どういう意味ですか?それは残りのスペースが空であることを意味しますか?場合はポイントの境界にあるその後、キューブ内のポイントが均一に分布してはいけませんか?x j 0.995 99 %
回答:
ハイパーキューブには無限に多くのポイントが含まれるため、「ハイパーキューブ内のポイントの」といえば、少し誤解を招く可能性があります。代わりに音量について話しましょう。
ハイパーキューブの体積は、その辺の長さの積です。50次元の単位超立方体のために我々が得る
ここで、ハイパーキューブの境界を除外して、 ' interior ' を見てみましょう(数学用語のinteriorは非常に異なる意味を持つため、これを引用符で囲みます)。0.05 < x 1 < 0.95を満たす
点のみを保持します
これは、50次元のハイパーキューブの体積のがその「境界」に集中していることを示しています。
フォローアップ: ignatiusは、これが確率とどのように関連しているかについて興味深い質問を投げかけました。例を示します。
50の入力パラメーターに基づいて住宅価格を予測する(機械学習)モデルを思いついたとします。50個の入力パラメーターはすべて独立しており、0と1の間で均一に分散され。
どの入力パラメーターも極端でない場合、モデルは非常にうまく機能するとします。すべての入力パラメーターがから間にある限り、モデルは住宅価格をほぼ完全に予測します。ただし、1つ以上の入力パラメーターが極端(またはより大きい)である場合、モデルの予測はひどいものになります。
与えられた入力パラメータは、確率で極端です。明らかにこれは良いモデルですよね?番号!確率の少なくとも一つののパラメータが極端ではある したがって、のケースで、モデルの予測はひどいものになります。
経験則: 高次元では、極端な観察が原則であり、例外ではありません。