過剰適合はどのくらいですか？

概念的に、オーバーフィットモデルと適切にフィットしたモデルの間にどこで線を引きますか？

モデルがテストセットよりもトレーニングセットで数パーセント優れている場合、過適合であることは明らかです。しかし、理論的には、トレーニングセットでモデルをトレーニングし、テストセットで検証したところ、トレーニングセットの精度がテストセットよりも0.2％高いことがわかりました。これは過度に適合していませんか？

— foboi1122
ソース

モデルがテストセットよりもトレーニングセットで数パーセント優れている場合、過適合であることは明らかです。

それは真実ではありません。モデルはトレーニングに基づいて学習し、テストセットの前に「確認」されていないため、トレーニングセットでのパフォーマンスが向上するはずです。テストセットで（少し）パフォーマンスが低下するという事実は、モデルが過剰適合していることを意味するわけではありません。

ウィキペディアの定義と説明を確認してください：

過剰適合は、統計モデルが根本的な関係ではなくランダムなエラーまたはノイズを表す場合に発生します。観測値の数に比べてパラメータが多すぎるなど、モデルが過度に複雑な場合、一般的に過剰適合が発生します。過剰適合モデルは、データの小さな変動を誇張する可能性があるため、一般的に予測パフォーマンスが低くなります。

モデルのトレーニングに使用される基準がモデルの有効性を判断するために使用される基準と同じではないため、過剰適合の可能性があります。特に、モデルは通常、トレーニングデータのセットに対するパフォーマンスを最大化することによってトレーニングされます。ただし、その有効性は、トレーニングデータに対するパフォーマンスではなく、目に見えないデータに対して十分に機能する能力によって決まります。モデルが傾向から一般化するために「学習」するのではなく、トレーニングデータを「記憶」し始めると、過剰適合が発生します。

極端な場合、過剰適合モデルはトレーニングデータに完全に適合し、テストデータには適合しません。ただし、実際の例のほとんどでは、これははるかに微妙であり、過剰適合を判断するのははるかに困難です。最後に、トレーニングセットとテストセットのデータが類似している可能性があるため、モデルは両方のセットで正常に機能しているように見えますが、新しいデータセットで使用すると、Googleインフルエンザの傾向のように、過剰適合によりパフォーマンスが低下します例。

いくつかのとその時間トレンドに関するデータがあるとします（下図）。0から30までの時間に関するデータがあり、データの0から20の部分をトレーニングセットとして使用し、21から30をホールドアウトサンプルとして使用することにしました。どちらのサンプルでも非常にうまく機能し、明らかな線形傾向がありますが、30を超える時間の目に見えない新しいデータで予測を行うと、適切なフィットは幻想的に見えます。 $Y$

これは抽象的な例ですが、実際の例を想像してみてください。ある製品の売上を予測するモデルがあり、夏は非常にうまく機能しますが、秋が来てパフォーマンスが低下します。あなたのモデルは夏のデータに適合しています-多分それは夏のデータにだけ良いかもしれません、多分それはこの年の夏のデータでのみ良いパフォーマンスをしたかもしれません、多分この秋は異常値でモデルはうまくいきます...

— ティム
ソース

SVMなどのカーネルモデルを使用すると、トレーニングセットでエラーが発生せずに最高の汎化パフォーマンスが得られることは珍しくありません。IMHOがトレーニングセットエラーを調べると、問題の原因が価値よりも多くなりますが、検証セットエラーを見るだけの方が適切です（ただし、ハイパーパラメーターを調整しすぎるとオーバーフィットする可能性があります）。

— Dikran Marsupial 2016

2つの異なるモデルを比較する際に、トレーニングセットとテストセットの誤差の違いを考慮に入れる必要がありますか、それともテストセットの誤差が最も少ないモデルを選択する必要がありますか？

— Siddhesh 2016年

@Siddhesh 2つのモデルがあります：model1列車のケースの2％とテストセットの2％をmodel2正しく分類（0％の違い）、列車のケース90％とテストセットの50％を正しく分類（30％の違い）-どちらか選んで..？違いは問題を示唆する可能性がありますが、モデルのパフォーマンス自体を測定するものではありません。

— Tim

しかし、どのようなテストエラーが同等であれば、ここで私が持っている質問です：@Tim stats.stackexchange.com/questions/202339/...こと

— Siddhesh

@Siddheshは、Dikran Marsupialによって書かれ、私の回答と上記のコメントで述べられているように、違いは何も示唆する必要はありません。私の回答の例は、トレーニングセットとテストセットの間に違いはないが、モデルが将来のデータに対して適切に動作しない状況を示しています。

— ティム