データポイントよりも多くの変数を使用したモデリング


11

私は機械学習/モデリングの初心者です。この問題の背景を教えてください。私は、観測数があるデータセットを持っているしかし、変数の数があるのp 8000。最初に、このようなデータセットでモデルを構築することを検討することは理にかなっていますか、それとも、リッジ回帰や投げ縄などの変数選択手法を最初に検討する必要がありますか?この状況は過剰適合につながる可能性があることを読みました。それはすべてのMLテクニックに当てはまりますか、それともいくつかのテクニックはこれを他のテクニックよりうまく処理しますか?数学が多すぎなければ、p > nで数学が崩壊し始める理由についての簡単な説明をいただければ幸いです。n<200p8000p>n

回答:


14

データポイントよりも変数の数が多い場合は、適切なモデルを適合させることは確かに可能ですが、これは注意して行う必要があります。

データポイントよりも多くの変数がある場合、さらに制約されない限り、問題は一意の解決策を持たない可能性があります。つまり、データに等しく適合する複数の(おそらく無限に多くの)ソリューションが存在する可能性があります。このような問題は「不適切な」または「不十分な」と呼ばれます。たとえば、データポイントよりも多くの変数がある場合、標準の最小二乗回帰には、トレーニングデータでエラーをゼロにする無限に多くの解があります。

このようなモデルは、トレーニングデータの量に対して「柔軟性が高すぎる」ため、確かに過剰に適合します。モデルの柔軟性が高まり(回帰モデルの変数が増えるなど)、トレーニングデータの量が減少するにつれて、モデルが、真の基礎となる分布。したがって、同じ分布から抽出された将来のデータでモデルを実行すると、パフォーマンスが低下します。

12

制約によって固有のソリューションが生成される可能性があります。これは、モデルを解釈してデータを生成したプロセスについて何かを学習したい場合に適しています。また、モデルの柔軟性を制限することで予測性能を向上させ、過剰適合の傾向を減らすことができます。

ただし、制約を課したり、一意のソリューションが存在することを保証したりしても、結果として得られるソリューションが優れているとは限りません。制約は、実際に問題に適している場合にのみ、適切なソリューションを生成します。

いくつかの雑多なポイント:

  • 複数のソリューションの存在は必ずしも問題ではありません。たとえば、ニューラルネットには、互いに異なるがほぼ同等の多くの解決策があります。
  • データポイントよりも多くの変数が存在すること、複数のソリューションが存在すること、および過剰適合がしばしば一致します。しかし、これらは異なる概念です。それぞれが他なしで発生する可能性があります。

3

33=7313=123423451+22220

(3,0,0)(2,1,0)

これは、ペナルティ付き回帰(なげなわや尾根のような)が意味するものです。「より単純な」ソリューションの管理可能なサブセットを見つけます。彼らは節約法則、またはオッカムのかみそりを使用します。2つのモデルが同じ精度の観測を説明する場合、たとえば、自由パラメーターの数の点でよりコンパクトなものを選択するのが最も賢明です。あまりに複雑なモデルを持つ変数間の有用な関係を実際に「説明」することはできません。

ジョンフォンノイマンに起因する引用は、このコンテキストを示しています。

4つのパラメーターを使用して、象を適合させることができます。5つのパラメーターを使用すると、象を胴体に揺らすことができます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.