「次元の呪い」を子供に説明する


91

私は次元の呪いについて何度も聞いたが、どういうわけか私はまだアイデアを理解することができません、それはすべて霧です。

あなたが子供に説明するように、誰もがこれを最も直感的な方法で説明できますか?


編集:

さて、子供が何らかの形でクラスタリングについて聞いたとしましょう(たとえば、おもちゃをクラスタ化する方法を知っています:))。次元の増加により、おもちゃをクラスタ化する仕事はどのように難しくなりますか?

たとえば、かつてはおもちゃの形とおもちゃの色(1色のおもちゃ)だけを考慮していましたが、今ではおもちゃのサイズと重量も考慮する必要があります。子供が似たようなおもちゃを見つけるのが難しいのはなぜですか?


編集2

議論のために、「子供が似たようなおもちゃを見つけるのが難しいのはなぜか」によって明確にする必要があります。また、高次元の空間で距離の概念が失われるのはなぜですか。


4
いい質問です。そして、あなたは本当にすべての統計学者の子供をここに連れ出している:Dあなたは私にもスタック交換で絵文字を使わせた:)
Dawny33

2
関連するが、重複していない:stats.stackexchange.com/questions/99171/…–
Sycorax

6
「子供への次元の呪い」?夜のベッドの前ではありません。
ttnphns

回答:


78

おそらく子供はクッキーを食べることを好むので、異なる色、異なる形、異なる味、異なる価格のクッキーが付いたトラック全体を持っていると仮定しましょう...

子供が選択する必要があるが、味などの特徴を1つだけ考慮する必要がある場合、4つの可能性があります:甘い、塩、酸っぱい、苦いので、子供は4つのクッキーを試すだけで最も好きなものを見つけることができます。

子供が味と色の組み合わせが好きで、4つ(ここではかなり楽観的です:-))異なる色がある場合、彼はすでに4x4の異なるタイプから選択する必要があります。

さらに、クッキーの形状を考慮に入れたい場合、5つの異なる形状がある場合、4x4x5 = 80のクッキーを試す必要があります。

私たちは続けることができますが、これらすべてのクッキーを食べた後、彼はすでに腹痛を持っているかもしれません...彼が最善の選択をする前に:-)腹痛を除いて、味の違いを覚えることは本当に難しくなる可能性があります各クッキーの。

(@Almo)を見るとわかるように、次元の数が増えると、ほとんど(すべて?)のことがより複雑になります。これは大人、コンピューター、そして子供にも当てはまります。


これが正しい概念を説明している場合(実際にそうなのかどうかはわかりません)、子供が理解できると確信しているため、この答えが気に入っています。
アルモ

14
私はあなたの答えが好きですが、私はそれが途中であるように感じます。私は、次元の数が増えるにつれて距離がますます意味のないものになる方法に対処する答えを見たいと思います。
TrynnaDoStat

1
@TrynnaDoStat:私は質問に答えましたが、距離を尋ねませんでしたか?今までに投稿された答えのどれも距離について話していないと思いますか?なぜあなたが私にそれを尋ねるだけなのかと尋ねると、私はあまりにも興味がありますか?

3
@fcoppensあなたの答えは私が最も好きなものだから=)
TrynnaDoStat

したがって、より多くのディメンションがある場合は、より多くのデータも必要になりますが、これは不可能な場合があります。
アントンアンド

53

私が次元の呪いに使用するのが好きなアナロジーは、幾何学的な面でもう少しですが、それがあなたの子供にとってまだ十分に役立つことを願っています。

犬を狩るのは簡単で、平野で走り回っている場合はキャッチすることができます(2次元)。鳥を狩るのははるかに困難です。鳥は今では移動できる余分な次元があります。幽霊がより高い次元の存在であるふりをする場合(フラットランドの A.スクエアと相互作用する球に似ている)、それらを捕まえるのはさらに困難です。:)


5
ああ、これは良いものです!私は1D方向にも行きました...たぶん、チューブの中を動く毛虫ですか?
グレッグ

2
良い点...それで、毛虫がついた非常に細い木の枝でしょうか?それは何らかの形で1つの次元に近似します。当然鳥はそれらを狩ります、おそらく近くのカラス?
グレッグ

1
ああ!カラスが戦術を学んだ場合、重力の操作は十分ではありません(彼らは非常に賢いです!)彼らは2つで狩り、一方が下から近づき、もう一方が上から近づいています。彼らは、バグが超大国を使用している場合、それらのカラスの1つに有利なオッズを比較検討するでしょう。うーん...では、重力操作と時間圧縮という2つの超大国のバグについてはどうでしょうか。それは5次元でのバグを追い詰めるのが非常に難しいとは思わないでしょうか?
グレッグ

1
走り回る2匹の犬を捕まえることは、4日間で狩り、20日間で10匹、30日間で10匹のツバメとして見ることができます
...-denis

1
@Greg、「キャッチ」はディメンションとはまったく関係がありません。それらは独立して実行されています(一部独立しすぎています。)
denis

19

それでは、子供がおもちゃをクラスタリングする例を分析してみましょう。
子供におもちゃが3つしかないことを想像してください。

  1. 青いサッカーボール
  2. 青いfreesbe
  3. 緑の立方体(わかりました、おそらくあなたが想像できる最も楽しいおもちゃではない)

おもちゃの作り方に関する次の初期仮説を見てみましょう。

  1. 可能な色は次のとおりです。赤、緑、青
  2. 可能な形状は次のとおりです。円、正方形、三角形

これで、(num_colors * num_shapes)= 3 * 3 = 9の可能なクラスターを持つことができます。

少年は次のようにおもちゃを集めます。

  • クラスターA)は、同じ色と形をしているため、青いボールと青いfreesbeを含んでいます
  • クラスターB)超面白い緑色のキューブが含まれています

これらの2つの次元(色、形状)のみを使用すると、2つの空でないクラスターがあります。したがって、この最初のケースでは、スペースの7/9〜77%が空です。

次に、子が考慮しなければならない次元の数を増やしましょう。また、おもちゃの作り方に関する次の仮説を立てます。

  1. おもちゃのサイズは、数センチメートルから1メートルの間で、10センチメートル単位で変化します:0-10cm、11-20cm、...、91cm-1m
  2. おもちゃの重さは、1キログラムまで0グラムから100グラム、101から200グラム、...、901グラムから1キログラムのステップで同様に変化します。

今すぐおもちゃをクラスタ化する場合、(num_colors * num_shapes * num_sizes * num_weights)= 3 * 3 * 10 * 10 = 900の可能なクラスタがあります。

少年は次のようにおもちゃを集めます。

  • クラスターA)は青で重いため、青いサッカーボールが含まれています
  • クラスターB)は青色で明るいため、青色のfreesbeを含む
  • CLUSTER C)には、非常に面白い緑色の立方体が含まれています

現在の4つのディメンション(形状、色、サイズ、重量)を使用すると、3つのクラスターのみが空ではありません。したがって、この場合、スペースの897/900〜99.7%は空です。

これは、Wikipedia(https://en.wikipedia.org/wiki/Curse_of_dimensionality)で見つけたものの例
です。...次元が増加すると、スペースのボリュームが急速に増加し、利用可能なデータがまばらになります。


編集:高次元の空間で距離が時々悪くなる理由を子供に本当に説明できるかどうかはわかりませんが、子供と彼のおもちゃの例を進めてみましょう。

最初の2つの特徴{color、shape}のみを考えてください。青いボールは緑の立方体よりも青いfreesbeに似ていることに誰もが同意します。

さて、他の98の機能を追加しましょう{ サイズ重量、生産日数、素材、柔らかさ、日中の価格、価格など}。

そう:

  1. 多数の機能は、類似性の特定の比較には無関係であり、S / N比の破損につながります。
  2. 高次元では、すべての例は「似ている」。

あなたが私に耳を傾けるなら、良い講義は「機械学習について知っておくべきいくつかの有用な事柄」(http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf)で、特にパラグラフ6はこれを示しています一種の推論。

お役に立てれば!


私はあなたの説明がとても好きです、ありがとう。空間のスパース性は今でははるかによく理解できましたが、より多くの次元の場合にどのおもちゃがより似ているのかを子供が見つけるのが難しいのはなぜですか?私が間違っている場合は修正しますが、そのような空間では距離の概念が壊れているので、どのおもちゃがより似ているかを判断することは困難です。何故ですか?
マルコ

この議論は、サイズと次元を混同しているように見えます。長さと重量を10個のビンに分割するのは任意です。これら2つの新しい要因を導入すると、設定に追加されるディメンションは2つだけになりますが、ビニングにより、「スペース」の「サイズ」の推定が大きくなります。それでも、状況をまったく変えずに、サイズと重量をビンに分けて、本質的にすべてのスペースが「空」であると結論付けることができます。10100
whuberの

@whuber:あなたは正しい、それをあまりにも簡単に保つために間違った言葉を使った
-ndrplz

@whuber:しかし、次元がされ、多くの場合、「サイズ」(の一部概念)の尺度として見られる
はKjetil BはHalvorsenの

@Kjetilは興味深い点であり、探索する価値があります。しかし、ディメンションが「サイズ」であるという意味を明確にし、統計設定で「サイズ」の他の意味と区別することが重要だと思いませんか?
whuber

14

私は次元の呪いの非常に直感的な(そして詳細な)説明を提供する次のリンクに出くわしました:http : //www.visiondummy.com/2014/04/curse-dimensionality-affect-classification/

この記事では、いわゆる「次元の呪い」について説明し、分類器を設計するときにそれが重要である理由を説明します。次のセクションでは、次元の呪いによる過剰適合の明確な例によって示される、この概念の直感的な説明を提供します。

いくつかの言葉で、この記事は(直感的に)フィーチャを追加する(つまり、フィーチャスペースの次元を増やす)ためにより多くのデータを収集する必要があることを導き出します。実際、収集する必要があるデータの量(過剰適合を避けるため)は、ディメンションを追加するにつれて指数関数的に増加します。

また、次のような素敵なイラストもあります。

ここに画像の説明を入力してください


+1、リンクは本当に良いです!引用と例の画像を編集しましたが、さらに説明されている内容の簡単な要約を提供できればさらに良いでしょう。
アメーバ

1
提案をありがとう。それに応じて応答を編集しました。
コスタ

8

次元の呪いは、異なる分野では異なるが関連することを説明するため、定義がやや曖昧です。以下に、機械学習の次元の呪いを示します。

女の子が10個のおもちゃを持っているとします。そのうち、イタリック体のおもちゃだけが好きです。

  • 茶色のテディベア
  • 青い車
  • 赤い電車
  • 黄色の掘削機
  • 緑の本
  • 灰色の豪華なセイウチ
  • 黒いワゴン
  • ピンクのボール
  • 白い本
  • オレンジ色の人形

今、彼女の父親は、誕生日のプレゼントとして彼女に新しいおもちゃを贈り、彼女がそれを気に入っていることを確認したいと考えています。彼は彼女が好きなおもちゃが共通しているものについて非常に一生懸命に考え、最終的に解決策に到達します。彼は娘にオールカラーのジグソーパズルを与えます。彼女が気に入らないとき、彼は答えます:「なぜあなたはそれが好きではありませんか?文字wが含まれています

父親は次元の呪い(およびサンプル内の最適化)の犠牲になりました。文字を検討することで、彼は26次元の空間を移動していたため、娘が好むおもちゃを区別する基準を見つける可能性が非常に高くなりました。これは、例のように1文字の基準である必要はありませんでしたが、次のようなこともできます。

a、n、およびpの少なくとも1つを含むが、u、f、およびsのいずれも含まない

娘がどのおもちゃを好むかを判断するのに文字が適切な基準であるかどうかを適切に判断するには、父親は膨大な量のおもちゃ¹に対する娘の好みを知る必要があります。意見。


¹オーダー:、すべての文字が等しく発生する可能性があり、複数の文字の出現を考慮しない場合。226


1
+1非常に明確、ありがとう。これは受け入れられた答えでなければなりません。
MiniQuark

7
  • 単位正方形に囲まれた円を考えてください。
  • 単位立方体に囲まれた球体を考えてください。
  • n次元の単位超立方体に囲まれたn次元の超球体を考えてください。

ハイパーキューブの体積は、単位で測定した場合、もちろんです。ただし、ハイパースフィアのボリュームは、nの増加とともに縮小します。1n

ハイパースフィアの中に何か面白いものがあった場合、それを高次元で見るのはますます難しくなります。では次元の場合、ハイパー球が消えます!それは呪いです。

更新:一部の人々は統計への接続を取得していないようです。ハイパーキューブ内でランダムな点を選択することを想像すると、関係を確認できます。2次元の場合、この点が円(ハイパースフィア)内にある確率はで、3次元の場合はなどです。次元の場合、確率はゼロです。π/4π/6


5

私:「「S」で始まる小さな茶色の動物を考えています。それは何ですか?」

彼女:「リス!」

私:「わかりました、もっと難しいものです。小さな茶色の動物を考えています。それは何ですか?」

彼女:「まだリス?」

私:「いいえ」

彼女:「ネズミ、ネズミ、ハタネズミ?

私: "Nope"

彼女:「うーん…手がかりをくれ」

私:「いや、でももっとうまくやる:CrossValidatedの質問に答えさせてあげる」

彼女:[うめき声]

私:「問題は次元の呪いとは何ですか?そしてあなたはすでに答えを知っています」

彼女:「やる?」

私:「あなたはそうします。なぜ最初の動物を推測するのは2番目の動物より難しいのですか?」

彼女:「 'S'で始まる小さな茶色の動物よりも小さな茶色の動物が多いのですか?」

私:「そうだ。それ次元の呪いだ。もう一度遊びましょう。」

彼女:「OK」

私:「私は何かを考えています。それは何ですか?」

彼女:「フェアではない。このゲームは難しい。」

私:「本当だ。だから彼らはそれを呪いと呼んでいる。あなたは私が考えがちなことを知らずにうまくやることができない」


4

いくつかの商品を出荷するとします。送料は封筒/箱の量に関連するため、商品を梱包するときはできるだけ無駄を省きます(つまり、できるだけ空きスペースを少なくします)。自由に使える容器(封筒、箱)は直角なので、袋などはありません。

最初の問題:ペン(「ライン」)を出荷します-スペースを失うことなく、その周りにボックスを構築できます。

2番目の問題:CD(「球」)を出荷します。正方形の封筒に入れる必要があります。子供の年齢に応じて、彼女は空のエンベロープの量を計算できる場合があります(そして、ダウンロードだけでなくCDがあることをまだ知っています;-))。

3番目の問題:サッカーを発送します(サッカー、そして膨らまなければなりません!)。それを箱に入れる必要があり、いくつかのスペースは空のままになります。その空きスペースは、CDの例よりも全体の大部分を占めます。

その時点で、このアナロジーを使用する私の直感は停止します。なぜなら、4次元を想像することはできないからです。

編集:アナロジーは、(あるとしても)ノンパラメトリック推定に最も役立ちます。これは、関心のあるポイントに「ローカル」な観測値を使用して、そのポイントでの密度または回帰関数を推定します。次元の呪いは、より高い次元では、与えられた数の観測に対してはるかに大きな近傍(局所性の概念を疑わせる)または大量のデータのいずれかを必要とすることです。


わかりました、説明ありがとう。基本的に、スペース全体を「埋める」のは難しいので、もっと大きなサンプルが必要なのはなぜですか?質問をもう少し具体的にする必要があります:)編集します。他の部分もチェックしてください。
マルコ

はい、私の編集を参照してください-クラスタリングについて考える必要があります
クリストフハンク

3
私は、あなたが四次元を想像できるだけでなく、実際に非常に高い次元を想像したことを提案したいと思います。結局、時系列の点のセットは、次元の単一のベクトルに他なりません。次元の呪いの概念をそのようなシリーズの比較に変換する方法を見つけることができれば、他の人(おそらくこの架空の子供でさえも)もそれを理解するのに役立ちます。nn
whuberの

@whuberここで、時系列の例で呪いが出てきます。私たちの時系列は、一定の(離散的な)時間にわたるランダムウォークであり、各段階で、歩行者はランダム(iid〜uniform(-1、1))の量を移動するとします。たとえば、線上で飛ぶのを追跡している。今、あなたの反応/視力は非常に良好であり、ラインの周りをすべて回らずにその場で目を保つには、いずれかの方向に最大で0.5単位移動する必要があります。もちろん、十分に長く待つと、フライはこの量をジャンプし、あなたはそれを失うでしょう。しかし、時間の任意の固定長のために、どのように多くのパス(続き)
ジュリアン・クランシー

ハエを追跡できなくなりますか?次元の呪いは次のように語っています。時間を長くするにつれて、それらのほとんどすべてです。そして、あなたは望み通りに視力を限りなく良くすることができます(つまり、どちらの方向でもほとんど1の動きを検出できます)、同じことが起こります。
ジュリアンクランシー

1

私の6ヨーヨーは、「しかし、宇宙のこのガスはどこから来たのか」など、主な原因の研究の節にあります。私にはありそうもない。

次の質問をしてみましょう: -cubeランダムな点を(均一に)選びます。下隅のポイントを取得するのにどのくらい時間がかかります?n[0,1]n[12,12]n

若者の答えは、この下隅にランダムポイントが存在する確率はであるということです。これは、左にヒットする前に予想されるポイント数が描画されることを意味しますコーナーは(幾何分布のプロパティによる)。小麦とチェス盤の問題からわかるように、これはすぐに非常に巨大になります。(12)n2n

今、あなたのお部屋を取りに行き、パパは仕事をしなければなりません。

PSクラスタリングについて...この高次元のボックスに散らばっている点について考えてください。長さがエッジを持つサブボックスがあるほど大きい。同じサブボックスで2つのポイントを選択するまでに時間がかかります。まあそれは、ポイントがランダムに一様に描かれているのではなく、いくつかのクラスターにある場合でも問題になる可能性があります。クラスターがarbitrarily意的に小さく選択されない場合、同じサブボックスで2つのポイントを選択する前に非常に長い時間がかかることがあります。これはクラスタリングを妨げることを理解しています...2n12


1
ええ、はい、これはf coppensによるcookieの回答と同じですが、創造性は劣ります。しかし、それは非子供がこのように表現されているのを見るのに役立つかもしれません...-
エルビス

0

これを示す古典的な教科書の数学問題があります。

(オプション1)1日に100ペニー、1か月間毎日、または(オプション2)1か月に1日に2倍のペニーを獲得しますか?あなたの子供にこの質問をすることができます。

オプション1を選択した場合、1
日目は2日目に100ペニーを獲得し、3日目は100ペニーを獲得します... 30日目には100ペニーを獲得します

上日、あなたは100ペニーを取得します。nth

ペニーの総数は、日数に1日あたりのペニー数を掛けることで求められます。

i=130100=30100=3000

オプション2を選択する
と、1日目に1ペニー、3日目に2ペニー、4日目に4ペニー、5日目に8ペニー、16ペニーを取得... 30日目に1,073,741,824を取得ペニー

上日にあなたが得るペニーを。nth2n

ペニーの合計数は、すべての前日の合計が現在の日に受け取ったペニーの数より1少ないことを観測しています:

i=1302n=(231)1=21474836481=2147483647

貪欲な人は誰でも大きな数字を選ぶでしょう。シンプルな欲は見つけやすく、ほとんど考える必要はありません。口がきけない動物は貪欲になりやすい-昆虫は悪名高い。人間にはもっと多くの能力があります。

100の代わりに1ペニーで開始する場合、貪欲は簡単ですが、多項式のべき乗を変更する場合、より複雑になります。複合体は、はるかに価値があることも意味します。

「呪い」について「
最も重要な」物理学関連の数学演算は、マトリックスの反転です。偏微分方程式系の解を導きます。最も一般的なのは、マクスウェル方程式(電磁気学)、ナビエストークス方程式(流体)、ポアソン方程式(拡散伝達)、およびフックの法則の変形(変形可能な固体)です。これらの各方程式には、それらを中心に構築された大学のコースがあります。

線形代数、別名Gauss-Jordan法で教示されている生の行列の反転には、完了するために操作の順序が必要です。ここで、「n」は次元の数ではなく、離散化されたチャンクの数です。簡単に次元の数に抽象化します。2dオブジェクトのジオメトリを適切に表すために10個のチャンクが必要な場合、3dアナログを適切に表すには少なくとも10 ^ 2、4dアナログを表すには10 ^ 2 ^ 2が必要です。ジオメトリの観点から考えている場合、「4次元ではない」と言うかもしれませんが、特定の方向の温度、濃度、速度などの物理量の観点では、それぞれ独自の「列」が必要であり、次元としてカウントされます。これらの方程式を2dから3dにすると、「n」を数乗することができます。n3

呪いが存在するのは、それが克服されると、虹の終わりに黄金の価値のあるポットがあるからです。それは簡単ではありません-偉大な心は問題に精力的に取り組んできました。

リンク:


1
あなたの例は、次元の呪いとは対照的に、多項式成長と指数関数的成長の違いを示すことに関連しているようです。
JMは統計学者ではありません

多項式および指数関数的成長は呪いです。線形の場合、暗号化は機能せず、ボトルでの融合は簡単にシミュレートできます。ここに「呪い」(ウィキペディアハイパーリンク)の列挙があります。これがなければ、コンピューターの数学は突然、以前よりもはるかに驚くほどになります。 en.wikipedia.org/wiki/…–
EngrStudent

2008年に行列の逆転で巨大なブレークスルーを発見し、順序を2未満に落としたのは都市の伝説ですが、分類されており、核兵器などのシミュレーションに使用されています。
EngrStudent

1
「核兵器などのシミュレーションに使用される」まで、私はほとんど確信していた。; Pしかし、真剣に、Coppersmith-Winogradは依然として最高のように見えますが、実際には大きな行列にのみ役立つ暗黙の定数があります。
JMは統計学者ではありません

あなたの答えと以前のコメントに接線方向に関連しています:行列式を効率的に計算することは難しくありませんが、パーマネントを計算することは別の問題です。
JMは統計学者ではありません

0

FcopはCookieと非常によく似ていますが、次元の呪いのサンプリング密度の側面のみをカバーしています。同じ数のFcopのCookieを1行に10箱、テーブルに10x10箱、スタックに10x10x10箱などで分配することにより、この類推をサンプリングボリュームまたは距離に拡張できます。次に、同じシェアのクッキーを食べるには、子供がさらに多くの箱を開けなければならないことを示すことができます。

それは本当に期待に関するものですが、説明するために「最悪のシナリオ」アプローチを取りましょう。

クッキーが8個あり、最悪の場合は10箱から半分、つまり4箱を食べたい場合は、6箱を開けるだけです。それは60%です-ちょうど半分も。10x10から(最悪の場合でも)-96(%)。10x10x10から996(99,6%)。それはほとんどすべてです!

保管室の例えかもしれませんし、部屋の間を歩いた距離はここの箱よりも良いでしょう。


良い拡張子:-)
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.