多様体の仮定が正しいことを証明する方法は?


9

機械学習では、データセットが滑らかな低次元多様体(多様体の仮定)にあると想定されることがよくありますが、特定の条件が満たされていると仮定すると、データセットが実際に(ほぼ)生成されることを証明する方法はありません低次元の滑らかな多様体から?

たとえば、データシーケンスが与えられた場合、(角度の異なる顔画像のシーケンスと言います)および対応するラベルシーケンスここで、 (フェイスシーケンスの角度など)。とが非常に近い場合、それらのラベルとも非常に近いと仮定すると、{X1Xn}XiRd{y1yn}y1y2ynXiXi+1yiyi+1{X1Xn}低次元の多様体にあります。これは本当ですか?もしそうなら、どうすればそれを証明できますか?または、多様体の仮定が真であると証明できるように、シーケンスはどのような条件を満たす必要がありますか?

回答:


10

「多様体の​​仮定」の多くの説明を見ると、多くのライターがその意味について特にずさんであることがすぐに明らかになります。より注意深いものはそれを微妙だが非常に重要な警告で定義します:データが低次元多様体の上または近くにあるということです。

「または近い」句を含まない人でも、アプリケーションはデータと推定された多様体の間の偏差を考慮する必要があるため、数学的分析を実行するのに便利な近似フィクションとして多様体の仮定を明確に採用します。実際、多くのライターは後でに対する回帰を熟考するなど、偏差の明示的なメカニズムを導入しています。ここで、は多様体あるように制約されていますが、はランダムな偏差。 これは、タプルが近くにあると想定することと同じです。yxxMkRd y(xi,yi)必ずしもではないが、次の形式の没入次元多様体k

(x,f(x))Mk×RRd×RRd+1

いくつかの滑らかな(回帰)関数。私たちはすべての摂動点、のグラフ(次元多様体)に近いだけで、次元のマニホールド、これは理論的には重要でないかもしれ「に近い」から「オン」の区別について、なぜ、このようなだらしを説明するのに役立ちます。xy = xf x+ ε f k k + 1 M k × Rf:RdR(x,y)=(x,f(x)+ε)fkk+1Mk×R

「オン」と「近く」の違いは、アプリケーションにとって非常に重要です。 「近く」では、データが多様体から逸脱する可能性があります。そのため、その多様体を推定することを選択した場合は、データと多様体の間の標準的な偏差量を定量化できます。典型的な偏差の量が少ない場合、1つの取り付けられたマニホールドは別のマニホールドよりも優れています。

図

この図は、データのマニホールド仮定の2つのバージョン(大きな青い点)を示しています。黒いマニホールドは比較的単純(説明するのに4つのパラメーターのみが必要)ですが、データに「近づく」だけで、赤い点線のマニホールドはデータに適合します。完璧ですが複雑です(17個のパラメーターが必要です)。

そのようなすべての問題と同様に、多様体の記述の複雑さと適合度(過剰適合問題)の間にはトレードオフがあります。1次元多様体が任意の有限量のデータに完全に適合することが常にわかるケースです(図の赤い点線多様体のように、すべての点を滑らかな曲線で走るだけです) 、任意の順序で:ほぼ確実にそれ自体は交差しませんが、交差する場合は、そのような交差の近くの曲線を混乱させてそれを排除します)。逆に、限られたクラスの多様体のみが許可される場合(直線のユークリッド超平面のみなど)、寸法に関係なく適切な適合が不可能になる可能性があり、データと適合の間の一般的な偏差が大きくなる可能性があります。Rd

これは、多様体の仮定を評価する簡単で実用的な方法につながります。多様体の仮定から開発されたモデル/予測子/分類子が許容範囲内でうまく機能する場合、仮定は正当化されました。したがって、質問で求められる適切な条件は、適合度のいくつかの関連する尺度が許容できるほど小さいことです。(どのような対策ですか?問題によって異なりますが、損失関数を選択することと同じです。)

(曲率にさまざまな種類の制約がある)異なる次元の多様体がデータに適合し、保持されたデータを同等に予測できる可能性があります。 特に大規模で乱雑な人間のデータセットを操作する場合は、一般に「基礎となる」多様体について何も「証明」できません。私たちが通常期待できるのは、それがフィットした多様体が良いモデルであることです。

適切なモデル/予測子/分類子が思いつかない場合は、多様体の仮定が無効であるか、次元が小さすぎる多様体であると見なしているか、十分によく見えていないか、十分によく見えていません。


1
+1とてもいい。(あなたが私の見解を共有することを暗示することなく)これは、何年にもわたって統計で培われてきた原理的だが懐疑的でしばしば暫定的な考え方が、しばしば曖昧で高速で光沢のある新しいものにとって非常に重要である理由をもう一度示します機械学習とデータサイエンスのおもちゃの世界。
Momo

5

任意の有限の点の集合は、任意のマニホールドに収めることができます(私は定理が何であるかを覚えてカント、定理が必要な参照、私はちょうどユニからこの事実を覚えておいてください)。

すべてのポイントを識別したくない場合、可能な最小の次元は1です。

簡単な例として、N個の2dポイントが与えられた場合、N個のすべてのポイントがその多項式上にあるN-1次の多項式がいくつか存在します。したがって、2Dデータセットには1D多様体があります。任意の次元のロジックも同様だと思います。

したがって、それは問題ではありません。特に、接続されたリーマン多様体を距離空間として扱う場合、実際の仮定は多様体の構造/単純さにあります。私はこの多様なホーカスpocusに関する論文を読み、注意深く読むとかなり大きな仮定が浮かび上がることがわかりました!

作成された仮定は、「近接性」の誘導された定義が「データセット内の情報を保持する」と仮定される場合ですが、これは情報理論の用語で正式に定義されていないため、結果の定義はかなりアドホックで、非常に大きな仮定です。具体的には、問題は「近接」が保持される、つまり2つの近接ポイントが近接するが、「遠近」は維持されないため、2つの「遠」ポイントが遠ざからないように見えることです。

結論として、データセットが実際に自然なユークリッド、たとえば視覚的パターン認識であることがわかっている場合を除き、私はそのような機械学習のトリックに非常に警戒しています。これらのアプローチは、より一般的な問題に適しているとは思いません。


ありがとう!あなたの答えは私が問題をよりよく理解するのに役立ちました。ここで言及した多様な仮定に関するいくつかの論文を推奨できますか?
thinkbear 2014

申し訳ありませんが、Googleがお手伝いできるはずです:)
samthebest
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.