回答:
テーブルの上に水平に置かれているガラス板にたくさんの種が固定されていると想像してください。私たちが一般的に空間について考える方法のために、これらの種は多かれ少なかれ二次元空間に住んでいると言っても安全でしょう。なぜなら、それぞれの種は、ガラス。
ここで、ガラスの表面が地面に対して水平でなくなるように、プレートを取り、斜め上方に傾けると想像してください。ここで、シードの1つを見つけたい場合、いくつかのオプションがあります。ガラスを無視することにした場合、各シードはテーブルの上の3次元空間に浮かんでいるように見えるため、各空間方向に1つずつ、3つの数字を使用して各シードの位置を記述する必要があります。しかし、ガラスを傾けるだけで、種子がまだ2次元の表面に住んでいるという事実は変わりません。したがって、ガラスの表面が3次元空間にどのようにあるかを記述し、その後、元の2次元を使用してガラス上の種の位置を記述することができます。
この思考実験では、ガラスの表面は高次元の空間に存在する低次元の多様体に似ています:プレートを3次元で回転させても、シードは2次元平面の表面に沿って生き続けます。
より一般的には、高次元空間に埋め込まれた低次元多様体は、何らかの理由で接続されているか、同じセットの一部であると見なされるポイントのセットにすぎません。特に、多次元は高次元の空間で何らかの形でゆがめられるかもしれません(たとえば、ガラスの表面がプレート形状ではなくボウル形状にゆがむかもしれません)が、多次元は基本的に低次元です。特に高次元空間では、この多様体はさまざまな形や形をとることができますが、3次元の世界に住んでいるので、3次元以上の例を想像することは困難です。ただし、サンプルとして、次の例を検討してください。
機械学習における多様体の一般的な例(または少なくとも低次元多様体に沿って生きていると仮定される集合)には以下が含まれます。
機械学習における多様な仮定は、世界のデータが可能な空間のすべての部分(たとえば、ホワイトノイズを含むすべての可能な1メガピクセル画像の空間)から来る可能性があると仮定するのではなく、トレーニングデータは、比較的低次元の多様体(種を含むガラス板のような)から得られること。次に、多様体の構造を学ぶことが重要なタスクになります。さらに、この学習タスクは、ラベル付きのトレーニングデータを使用しなくても可能と思われます。
低次元多様体の構造を学習する方法はたくさんあります。最も広く使用されているアプローチの1つは、多次元空間が高次元の空間に埋め込まれたパンケーキや葉巻のような単一の楕円形の「ブロブ」で構成されると想定するPCAです。isomap、ICA、またはスパースコーディングなどのより複雑な手法は、これらの仮定のいくつかをさまざまな方法で緩和します。
半教師あり学習で多様体の仮定が重要である理由は2つあります。多くの現実的なタスク(たとえば、画像のピクセルが4または5を示すかどうかの判断)については、ラベル(たとえば、数字が含まれる可能性のある画像)のない世界では、ラベル(たとえば、 「4」または「5」と明示的にラベル付けされた画像)。さらに、画像のピクセルには、ラベルのある画像のラベルにある情報よりも多くの情報があります。しかし、前述したように、自然画像は実際にはピクセル構成の均一な分布からサンプリングされていないため、自然画像の構造をキャプチャする多様体がある可能性があります。5sを含む画像も同様に異なるが近くにある多様体上にありますが、ピクセルのデータのみを使用してこれらの多様体のそれぞれの表現を開発し、異なる多様体がデータの異なる学習特徴を使用して表現されることを期待できます。その後、数ビットのラベルデータが利用可能になったら、それらのビットを使用して、既に識別された多様体にラベルを単純に適用できます。
この説明のほとんどは、深層学習および機能学習の文献での作業に基づいています。Yoshua BengioとYann LeCun-Energy Based Learning Tutorialには、この分野で特にアクセスしやすい議論があります。
最初に、埋め込みとは何かを理解してください。それはだ数学から借りました。大まかに言うと、データの別のスペース(多くの場合、埋め込みスペースまたはフィーチャースペースと呼ばれる)へのマッピングであり、データの構造またはプロパティを保持します。その次元は、入力スペースより大きくても小さくてもよいことに注意してください。実際には、マッピングは複雑で非常に非線形です。いくつかの例:
説明のために、Josh Tenenbaumのこの論文の例を取り上げます。
図1は、視覚による知覚の例とともに、特徴発見の問題を示しています。すべての可能な視点からの顔のビューのセットは、コンピューターまたは網膜上の画像アレイとして表される場合、非常に高次元のデータセットです。たとえば、32 x 32ピクセルのグレースケール画像は、1,024次元の観測空間[入力空間]内の点と考えることができます。ただし、これらの画像[機能空間]の知覚的に意味のある構造は、はるかに低い次元です。図1の画像はすべて、視野角によってパラメーター化された2次元多様体上にあります。
次に、Josh Tenenbaumは、入力から特徴空間へのマッピングを学習することの難しさについて説明します。しかし、質問に戻りましょう。入力空間と特徴空間がどのように関係しているかに興味があります。
32*32 array of grey pixel values
入力空間であります[x1=elevation, x2=azimuth]
空間は、特徴空間(単純化したが、それが有効な埋め込み空間として考えることができる)です。多様体仮説を再統計する(このすばらしい記事から引用):
多様体仮説は、自然データがその埋め込み空間で低次元多様体を形成するということです
この例では、埋め込みスペースの次元が入力スペースよりもはるかに少ないことが明らかです:2対1024(この区別は、より高次元であまり単純でない埋め込みスペースの選択に対しても保持されます)。
埋め込みが多様体を形成していることを確信させるために、テネンバウム紙の残りの部分またはコラーの記事を読むことを勧めます。
注:これは、多様体仮説が意味するものの単なる例示であり、なぜ起こるのかの議論ではありません。