テストサンプルのAUCが高すぎるモデルは、オーバーフィットしないモデルよりも優れています


7

私は、列車セットで70%の AUC、ホールドアウトテストセットで70%の AUC を実行するモデルを作成したチャレンジに参加しています。 他の参加者は、トレーニングセットでAUC を96%、ホールドアウトテストセットでAUC を76%実行するモデルを作成しました。 私の意見では、ホールドアウトセットと同じレベルで機能するため、私のモデルの方が優れています。Q:テストセットでの彼の76%は単なる偶然であり、別のホールドアウトテストセットでは彼のモデルのパフォーマンスが低下する可能性があると主張することは有効ですか?




あなたの結果ではなく、彼の結果だけが偶然に達成できるとあなたはどのように主張しますか?
Firebug 2016年

トレインセット、テストセット、ホールドアウトセットでも同じパフォーマンスが得られました。彼は列車セットで96%を持っていました、テストセットでの彼のパフォーマンスが何であったか私は知りません、そして彼はホールドアウトセットで76%を持っていました。だから私にとっては、私のモデルは安定した結果を生み出しているように見えますが、彼はトレーニングセットに適合しすぎており、新しいサンプルが与えられれば、彼のモデルが同じ76%を生み出すかどうかはわかりません
MiksL 2016年

回答:


6

これは、トレーニングセットとテストセットの構成によって異なります。

テストセットがかなり大きく、「アプリケーションケース」のデータの多様性を正しく反映している場合、私はこのように主張しません。しかし、テストデータがかなり小さい場合は、当然、良い結果または悪い結果が偶然に得られる可能性があります。このようなケースでは、より多くのテストデータを使用すると役立ちます(または、可能な場合は、利用可能なデータ全体の大部分を使用します)。

さらに、トレーニング結果は、モデルがこれまでに見たことのないデータをテストする、いくつかの内部パーティション分割(たとえば、繰り返し交差検証)を使用して取得する必要があります。これらの結果全体のパフォーマンスとパフォーマンスの広がりは、モデルの通常のパフォーマンスと、より良い結果またはより悪い結果が得られる可能性がどの程度かを示しています。このような手順を使用すると、CVの結果より優れたテスト結果は現実的であるとは見なしません。また、両方のモデルのCVパフォーマンスとパフォーマンススプレッドも確認して比較する必要があります。

また、トレーニングデータがテストデータに比べてかなり小さい場合でも、トレーニング結果はテスト結果や実際のアプリケーションケース結果よりも著しく優れている可能性があることに注意してください。


3

純粋に予測精度に焦点が当てられている場合は、過剰適合モデルの方がおそらく良いでしょう。たとえば、ランダムフォレストを考えてみましょう。トレーニングデータセットでは、構造上、非常に適合しています。それでも、テストデータセットの結果は、かなり合理的であることがよくあります(そして、指定されたout-of-bagのパフォーマンスに近いテストパフォーマンス)。

これが機能するのは、テストデータセットが「実際のケース」を反映し、基礎となるモデルの仮定が合理的に満たされている場合のみです。


焦点は、プロダクションモードにした場合に、将来どのモデルがより優れたパフォーマンスを発揮するかを理解することです。
MiksL 2016年

0

テストセットにも適合しすぎる可能性があります(状況によっては)。適切に適合したモデルは、トレーニングデータセットとテストデータセットの両方で、ほぼ同様の相互検証済みパフォーマンスを達成する必要があります。ベストプラクティスは、一度しか使用されないデータセットの別の部分も差し控えることです。まったく表示されていないデータに対するモデルのパフォーマンスを評価します。

テストセットを使用してモデルを繰り返し作成している場合、たとえば、機能を追加し、テストセットでの検証方法を確認すると、テストセットに関するモデル情報が提供されます。具体的には、テストセットのパフォーマンスに基づいてモデルを調整すると、テストセットの結果が高くなるようにバイアスされます(つまり、過剰適合になります)。


3
(-1)申し訳ありませんが、「適切にフィットしたモデルは、トレーニングデータセットとテストデータセットの両方で、ほぼ同様の相互検証済みパフォーマンスを達成するはずです」には同意しません。たとえば、ランダムフォレストは列車のデータで定期的に完璧なスコアを達成します。たとえば、それらが適切に適合していないと言いますか?
Firebug 2016年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.