過剰適合を検出する手法


9

データサイエンスの職に就職の面接を受けました。インタビュー中に、モデルが適合しすぎないようにするために何をすべきか尋ねられました。私の最初の答えは、モデルのパフォーマンスを評価するために交差検証を使用することでした。しかし、インタビュアーは、交差検証でさえ完全に過剰適合を特定することはできないと述べました。次に、正則化について述べましたが、インタビュアーは、これが過剰適合を減らすのに役立つ可能性がある(私は同意する)が、それを検出することはできないと述べました。モデルが過剰適合していないことを確認するために使用できる他の手法はありますか?


2
このQのかもしれないのヘルプ:stats.stackexchange.com/questions/193661/...
はEinar

これがまさにあなたが望むものかどうかはわかりませんが、このURLの John Langfordは、過剰適合の原因と治療法について説明しています。
ウルフ2017

回答:


7

私は、インタビュアーをフィッティングしすぎることについて尋ねたとき、あなたがその後に数歩進んだときに「教科書の答え」を探していたと思います。

過剰適合の症状は、トレーニングセットの分類子のパフォーマンスがテストセットの分類子のパフォーマンスよりも優れていることです。これは一般的な回答であり、妥当な概算であるため、「テキストブックの回答」と呼びます。

この回答には多くのオープンエンドがあることに注意してください。たとえば、どのくらいの違いが過剰適合ですか?。また、データセット間のパフォーマンスの違いは、必ずしも過剰適合によるものではありません。一方、過剰適合は、必ずしも2つのデータセットのパフォーマンスに有意差をもたらすとは限りません。

相互検証は、学習者(たとえば、決定木)のパフォーマンスを、以前には見られなかったデータに対して評価する手法です。ただし、オーバーフィッティングは特定のモデルを指します(たとえば、「f1」の場合、「f2」ではなくTrueを予測します)。これは、学習者がこのデータに過剰適合する傾向を示しますが、特定のモデルが過剰適合しているかどうかには答えません。

モデルを過剰適合させるには、モデルが複雑になる必要があり、それが正則化の助けでした。モデルの複雑さを制限(またはトレードオフ)します。オーバーフィッティングのもう1つの原因は、仮説セットのサイズです(可能なモデルの数と見なすことができます)。制限付き仮説セットを使用することを事前に決定することは、過剰適合を回避するもう1つの方法です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.