半教師あり学習の多様な仮定とは何ですか？

20

半教師あり学習における多様な仮定の意味を理解しようとしています。誰でも簡単に説明できますか？私はその背後にある直感をつかむことができません。

データは、高次元の空間に埋め込まれた低次元の多様体上にあると言います。意味がわかりませんでした。

— user34790
ソース

例

より一般的には、高次元空間に埋め込まれた低次元多様体は、何らかの理由で接続されているか、同じセットの一部であると見なされるポイントのセットにすぎません。特に、多次元は高次元の空間で何らかの形でゆがめられるかもしれません（たとえば、ガラスの表面がプレート形状ではなくボウル形状にゆがむかもしれません）が、多次元は基本的に低次元です。特に高次元空間では、この多様体はさまざまな形や形をとることができますが、3次元の世界に住んでいるので、3次元以上の例を想像することは困難です。ただし、サンプルとして、次の例を検討してください。

物理的空間（3次元）のガラス（平面、2次元）
布片（2次元）の単一スレッド（1次元）
洗濯機でしわになった生地（二次元）（三次元）

機械学習における多様体の一般的な例（または少なくとも低次元多様体に沿って生きていると仮定される集合）には以下が含まれます。

自然なシーンの画像（通常、ホワイトノイズの画像は表示されません。たとえば、「自然な」画像は可能なピクセル構成のスペース全体を占有しません）
自然な音（同様の議論）
人間の動き（人体には数百の自由度がありますが、動きは〜10次元を使用して効果的に表現できる空間に住んでいるようです）

多様体の学習

機械学習における多様な仮定は、世界のデータが可能な空間のすべての部分（たとえば、ホワイトノイズを含むすべての可能な1メガピクセル画像の空間）から来る可能性があると仮定するのではなく、トレーニングデータは、比較的低次元の多様体（種を含むガラス板のような）から得られること。次に、多様体の構造を学ぶことが重要なタスクになります。さらに、この学習タスクは、ラベル付きのトレーニングデータを使用しなくても可能と思われます。

低次元多様体の構造を学習する方法はたくさんあります。最も広く使用されているアプローチの1つは、多次元空間が高次元の空間に埋め込まれたパンケーキや葉巻のような単一の楕円形の「ブロブ」で構成されると想定するPCAです。isomap、ICA、またはスパースコーディングなどのより複雑な手法は、これらの仮定のいくつかをさまざまな方法で緩和します。

半教師あり学習

半教師あり学習で多様体の仮定が重要である理由は2つあります。多くの現実的なタスク（たとえば、画像のピクセルが4または5を示すかどうかの判断）については、ラベル（たとえば、数字が含まれる可能性のある画像）のない世界では、ラベル（たとえば、「4」または「5」と明示的にラベル付けされた画像）。さらに、画像のピクセルには、ラベルのある画像のラベルにある情報よりも多くの情報があります。しかし、前述したように、自然画像は実際にはピクセル構成の均一な分布からサンプリングされていないため、自然画像の構造をキャプチャする多様体がある可能性があります。5sを含む画像も同様に異なるが近くにある多様体上にありますが、ピクセルのデータのみを使用してこれらの多様体のそれぞれの表現を開発し、異なる多様体がデータの異なる学習特徴を使用して表現されることを期待できます。その後、数ビットのラベルデータが利用可能になったら、それらのビットを使用して、既に識別された多様体にラベルを単純に適用できます。

この説明のほとんどは、深層学習および機能学習の文献での作業に基づいています。Yoshua BengioとYann LeCun-Energy Based Learning Tutorialには、この分野で特にアクセスしやすい議論があります。

— lmjohns3
ソース

1

これは質問に答えません：多様体が必要な理由を説明するのではなく、基本的に高次元の埋め込みが必要ない理由を説明しています（高次元の埋め込みのサブセットは、例に適合するために多様体である必要はありません）。

— 17

5

最初に、埋め込みとは何かを理解してください。それはだ数学から借りました。大まかに言うと、データの別のスペース（多くの場合、埋め込みスペースまたはフィーチャースペースと呼ばれる）へのマッピングであり、データの構造またはプロパティを保持します。その次元は、入力スペースより大きくても小さくてもよいことに注意してください。実際には、マッピングは複雑で非常に非線形です。いくつかの例：

word2vecなどの単語を表すための実数値の「単語ベクトル」
FC7レイヤーAlexNetなど、convnetのレイヤーのアクティブ化（FC7は7番目の完全に接続されたレイヤーです）

説明のために、Josh Tenenbaumのこの論文の例を取り上げます。

図1は、視覚による知覚の例とともに、特徴発見の問題を示しています。すべての可能な視点からの顔のビューのセットは、コンピューターまたは網膜上の画像アレイとして表される場合、非常に高次元のデータセットです。たとえば、32 x 32ピクセルのグレースケール画像は、1,024次元の観測空間[入力空間]内の点と考えることができます。ただし、これらの画像[機能空間]の知覚的に意味のある構造は、はるかに低い次元です。図1の画像はすべて、視野角によってパラメーター化された2次元多様体上にあります。

次に、Josh Tenenbaumは、入力から特徴空間へのマッピングを学習することの難しさについて説明します。しかし、質問に戻りましょう。入力空間と特徴空間がどのように関係しているかに興味があります。

32*32 array of grey pixel values入力空間であります
[x1=elevation, x2=azimuth]空間は、特徴空間（単純化したが、それが有効な埋め込み空間として考えることができる）です。

多様体仮説を再統計する（このすばらしい記事から引用）：

多様体仮説は、自然データがその埋め込み空間で低次元多様体を形成するということです

この例では、埋め込みスペースの次元が入力スペースよりもはるかに少ないことが明らかです：2対1024（この区別は、より高次元であまり単純でない埋め込みスペースの選択に対しても保持されます）。

埋め込みが多様体を形成していることを確信させるために、テネンバウム紙の残りの部分またはコラーの記事を読むことを勧めます。

注：これは、多様体仮説が意味するものの単なる例示であり、なぜ起こるのかの議論ではありません。

関連：単語ベクトルの説明、word2vec論文

— ベンジャミン・クルージエ
ソース