「多様体の仮定」の多くの説明を見ると、多くのライターがその意味について特にずさんであることがすぐに明らかになります。より注意深いものはそれを微妙だが非常に重要な警告で定義します:データが低次元多様体の上または近くにあるということです。
「または近い」句を含まない人でも、アプリケーションはデータと推定された多様体の間の偏差を考慮する必要があるため、数学的分析を実行するのに便利な近似フィクションとして多様体の仮定を明確に採用します。実際、多くのライターは後でに対する回帰を熟考するなど、偏差の明示的なメカニズムを導入しています。ここで、は多様体にあるように制約されていますが、はランダムな偏差。 これは、タプルが近くにあると想定することと同じです。yxxMk⊂Rd y(xi,yi)必ずしもではないが、次の形式の没入次元多様体k
(x,f(x))∈Mk×R⊂Rd×R≈Rd+1
いくつかの滑らかな(回帰)関数。私たちはすべての摂動点、のグラフ(次元多様体)に近いだけで、上次元のマニホールド、これは理論的には重要でないかもしれ「に近い」から「オン」の区別について、なぜ、このようなだらしを説明するのに役立ちます。(x、y )= (x、f (x)+ ε )f k k + 1 M k × Rf:Rd→R(x,y)=(x,f(x)+ε)fkk+1Mk×R
「オン」と「近く」の違いは、アプリケーションにとって非常に重要です。 「近く」では、データが多様体から逸脱する可能性があります。そのため、その多様体を推定することを選択した場合は、データと多様体の間の標準的な偏差量を定量化できます。典型的な偏差の量が少ない場合、1つの取り付けられたマニホールドは別のマニホールドよりも優れています。
この図は、データのマニホールド仮定の2つのバージョン(大きな青い点)を示しています。黒いマニホールドは比較的単純(説明するのに4つのパラメーターのみが必要)ですが、データに「近づく」だけで、赤い点線のマニホールドはデータに適合します。完璧ですが複雑です(17個のパラメーターが必要です)。
そのようなすべての問題と同様に、多様体の記述の複雑さと適合度(過剰適合問題)の間にはトレードオフがあります。1次元多様体が任意の有限量のデータに完全に適合することが常にわかるケースです(図の赤い点線多様体のように、すべての点を滑らかな曲線で走るだけです) 、任意の順序で:ほぼ確実にそれ自体は交差しませんが、交差する場合は、そのような交差の近くの曲線を混乱させてそれを排除します)。逆に、限られたクラスの多様体のみが許可される場合(直線のユークリッド超平面のみなど)、寸法に関係なく適切な適合が不可能になる可能性があり、データと適合の間の一般的な偏差が大きくなる可能性があります。Rd
これは、多様体の仮定を評価する簡単で実用的な方法につながります。多様体の仮定から開発されたモデル/予測子/分類子が許容範囲内でうまく機能する場合、仮定は正当化されました。したがって、質問で求められる適切な条件は、適合度のいくつかの関連する尺度が許容できるほど小さいことです。(どのような対策ですか?問題によって異なりますが、損失関数を選択することと同じです。)
(曲率にさまざまな種類の制約がある)異なる次元の多様体がデータに適合し、保持されたデータを同等に予測できる可能性があります。 特に大規模で乱雑な人間のデータセットを操作する場合は、一般に「基礎となる」多様体について何も「証明」できません。私たちが通常期待できるのは、それがフィットした多様体が良いモデルであることです。
適切なモデル/予測子/分類子が思いつかない場合は、多様体の仮定が無効であるか、次元が小さすぎる多様体であると見なしているか、十分によく見えていないか、十分によく見えていません。