機械学習における柔軟で柔軟性のないモデル


10

さまざまなシナリオでの柔軟なモデル(スプラインなど)と柔軟性のないモデル(線形回帰など)の比較に関する簡単な質問に遭遇しました。質問は:

一般に、次の場合、柔軟な統計学習法のパフォーマンスは、柔軟性のない方法よりも良いか悪いかを予想しますか?

  1. 予測子の数は非常に大きく、観測値の数は少ないですか? npn
  2. エラー項の分散、すなわちσ2=Var(e)は非常に高いですか?

(1)については、nが小さい場合、柔軟性のないモデルの方が良い(わかりません)と思います。(2)については、どちらのモデルが(比較的)優れているかわかりません。


汎化エラーは決して些細なことではありません。残念ながら、経験則はこの点ではあまり役に立ちません。
Marc Claesen、2013

8
ジェームズ、ウィッテン、ハスティ、ティブシラニによる統計学習入門
ノエルエヴァンス

1.柔軟な方法では、少数の観察に適合します。2.柔軟な方法は、誤差項のノイズに適合し、分散を増やします。
Zanark

回答:


3

これらの2つの状況では、柔軟性のあるモデルと柔軟性のないモデルの比較パフォーマンスも以下に依存します。

  • 線形または非常に非線形に近い真の関係y = f(x)です。
  • 「柔軟な」モデルのフィッティング時に、柔軟度を調整/制約しますか?

関係が線形に近く、柔軟性を制約しない場合、柔軟なモデルはどちらの場合もオーバーフィットする可能性が高いので、線形モデルはどちらの場合もテストエラーを改善する必要があります。

あなたはそれをそれとして見ることができます:

  • どちらの場合も、データには真の関係に関する十分な情報が含まれていません(最初の場合、関係は高次元であり、十分なデータがありません。2番目の場合、ノイズによって破損しています)。
    • 線形モデルは、真の関係(適合関係のクラスを線形関係に制約する)に関するいくつかの外部事前情報をもたらします。
    • その以前の情報は正しいことがわかります(真の関係は線形に近い)。
  • 柔軟なモデルには以前の情報が含まれていない(何にでも適合できる)ため、ノイズに適合します。

しかし、真の関係が非常に非線形である場合、誰が勝つか(どちらも失う:))とは言いがたいです。

柔軟性の度合いを調整または制約し、それを正しい方法で(たとえば、相互検証によって)実行する場合、すべてのケースで柔軟なモデルが優先されます。


4

もちろん、それは、モデルを適合させる前にその特性の一部を見つけるために常に調査する必要がある基礎となるデータに依存しますが、私が一般的な経験則として学んだものは次のとおりです。

  • 柔軟なモデルにより、大きなサンプルサイズ(大きなn)を最大限に活用できます。
  • 非線形効果を見つけるには、柔軟なモデルが必要になります。
  • 柔軟なモデルでは、問題のノイズが多すぎます(誤差項の分散が大きい場合)。

1

さて、第2部では、より柔軟なモデルはモデルを厳密に適合させようとし、トレーニングデータには高いノイズが含まれるため、柔軟なモデルはそのノイズを学習しようとし、結果としてテストエラーが増加すると思います。私も同じ本を読んでいるので、私はこの質問の出所を知っています:)


1

最初の部分では、柔軟性のないモデルは限られた数の観測でより良いパフォーマンスを期待します。nが非常に小さい場合、両方のモデル(柔軟性があるかどうかにかかわらず)では十分な予測が得られません。ただし、柔軟なモデルはデータを過剰に適合させる傾向があり、新しいテストセットに関してはパフォーマンスが低下します。

理想的には、フィッティングを改善するためにより多くの観測を収集しますが、そうでない場合は、新しいテストセットでテストエラーを最小限に抑えるために柔軟性のないモデルを使用します。


0

2番目の質問の答えは、どちらも同じように機能することになると思います(これらのエラーは既約であると仮定すると、このエラーです)。詳細については、18ページの「統計学習の概要」(トピック:なぜ推定するか)を参照してください。f

精度の予測として、私たちが呼ぶ二つの量に依存し、還元性誤差および既約エラーが。一般的には、のための完璧な見積もりではありません、およびこの不正確さは、いくつかのエラーをご紹介します。このエラーは、還元性我々は、潜在的に精度向上させることができるので推定するために、最も適切な統計的学習の手法を用いて。ただし、完全な推定値を作成することができたとしても、推定応答は形式になります。YYF、F 、F 、F、F Y = F X Y ε X ε Ff^ff^f^fY^=f(X)、私たちの予測にはまだいくつかのエラーがあります!これは、が関数でもあり、を使用して予測できないためです。したがって、関連する変動性も予測の精度に影響します。これは既約エラーとして知られています。これは、をどれほど適切に推定しても、によって導入されるエラーを減らすことができないため です。 YϵXϵfϵ


分かりません。
Michael R. Chernick 2017年

0

(a)から(d)までの各部分について、i。またはii。正解です。あなたの答えを説明してください。一般的に、次の場合、柔軟な統計学習法のパフォーマンスは、柔軟性のない方法よりも良いか悪いかを予測しますか?

サンプルサイズnは非常に大きく、予測子の数pは小さいですか?

より良い。柔軟な方法では、データをより近くに合わせてサンプルサイズを大きくすると、柔軟性のない方法よりもパフォーマンスが向上します。

予測子の数pは非常に大きく、観測値の数nは少ないですか?

さらに悪い。柔軟な方法では、少数の観測値に適合しすぎます。

予測子と応答の関係は非常に非線形ですか?

より良い。自由度が高いと、柔軟性のある方法の方が柔軟性がない方法よりもうまく適合します。

エラー項の分散、つまりσ2= Var(ε)は非常に高いですか?

さらに悪い。柔軟な方法は、誤差項のノイズに適合し、分散を増加させます。

ここから撮影。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.