モデルのトレーニングデータの精度は100%、テストデータの精度は70%と仮定します。このモデルについて次の議論は真実ですか?
これが過剰適合モデルであることは明らかです。オーバーフィッティングを減らすことで、テストの精度を高めることができます。しかし、このモデルはテストデータに対して許容可能な精度を持っているため、依然として有用なモデルである可能性があります。
モデルのトレーニングデータの精度は100%、テストデータの精度は70%と仮定します。このモデルについて次の議論は真実ですか?
これが過剰適合モデルであることは明らかです。オーバーフィッティングを減らすことで、テストの精度を高めることができます。しかし、このモデルはテストデータに対して許容可能な精度を持っているため、依然として有用なモデルである可能性があります。
回答:
引数は正しいと思います。特定のアプリケーションで70%が許容できる場合、モデルはオーバーフィットしていても便利です(より一般的には、オーバーフィットしているかどうかに関係なく)。
オーバーフィッティングとアンダーフィッティングのバランスをとることは最適性(最適なソリューションを探す)に関係しますが、満足のいくパフォーマンスを得るということは十分です(モデルはタスクに対して十分なパフォーマンスを発揮しますか?)。モデルは最適でなくても十分に優れている場合があります。
編集: OPでのFirebugとMatthew Druryのコメントの後、検証パフォーマンスが問題になる可能性があることを知らずにモデルがオーバーフィットしているかどうかを判断するために追加します。Firebugでは、検証とテストパフォーマンスを比較して、過剰適合の量を測定することをお勧めします。それにもかかわらず、モデルがテストセットで100%の精度を提供せずにトレーニングセットで100%の精度を提供する場合、それは過剰適合の可能性の指標です(特に回帰の場合はそうですが、必ずしも分類ではありません)。
set.seed(100)
、ここで説明する現象とset.seed(15)
その逆の説明を試みます。「オーバーフィッティングの可能性の指標」と言う方がいいでしょう
クレジットカードの不正検出に関する私の過去のプロジェクトでは、不正なケースを記憶するために、データ/ハードコードを意図的に過剰に適合させたいと考えています。(1つのクラスの過剰適合は、OPが述べた一般的な過剰適合の問題とはまったく異なります。)そのようなシステムは、比較的低い誤検知を持ち、ニーズを満たします。
したがって、過剰適合モデルはいくつかの場合に役立つ可能性があります。
たぶん:注意してください。70%の精度(ただし測定する場合)で十分だと言うとき、エラーはランダムまたは均等に分散していると考えているように感じます。
しかし、オーバーフィッティングの見方の1つは、モデルテクニックがトレーニングセットの癖に注意を払いすぎた場合に発生するということです。これらの癖を共有する一般集団の被験者は、非常に不均衡な結果になる可能性があります。
そのため、トレーニングデータに特定の癖があるため、すべての赤犬にがんがあるというモデルになります。または、24歳から26歳までの既婚者は、不正な保険金請求を行うことがほぼ保証されています。70%の精度では、モデルが過剰適合であるため、被験者のポケットが100%間違っている余地が多く残ります。
(過剰適合ではないということは、間違った予測のポケットがないことを保証するものではありません。実際、適合不足モデルには悪い予測のスワスがありますが、過剰適合では、トレーニングデータの癖の影響を拡大していることがわかります)
いいえ、役に立つことはありませんが、目的によって異なります。いくつかのことが思い浮かびます。
このような分類子は、アンサンブルで本当に役立ちます。通常の重みを持つ分類器、TPRをオーバーウェイトする分類器、FNRをオーバーウェイトする分類器を1つ持つことができます。そうすれば、単純な3則の投票、つまり平均化でさえ、単一の最良分類器よりも優れたAUCを提供します。各モデルが異なるハイパーパラメーター(またはサブサンプリングされたトレーニングセット、またはモデルアーキテクチャ)を使用する場合、オーバーフィットからアンサンブルをある程度購入します。
同様に、リアルタイムのスパム対策、詐欺対策、クレジットスコアリングの場合、分類子の階層を使用することは問題ありません。レベル1分類子は非常に高速に評価する必要があり(ミリ秒)、高いFPRを使用しても問題ありません。彼らが犯す間違いは、より正確で、十分な機能を備えた、より低速で高レベルの分類子または最終的に人間のレビュー担当者によってキャッチされます。明らかな例:2013年の「ホワイトハウス爆弾攻撃が3人を殺す」などのTwitterアカウント乗っ取りによる偽ニュースの見出しが、投稿から数ミリ秒以内に10億ドルの取引に影響を与えないようにします。レベル1分類子がスパムに対して陽性であることを示すことは問題ありません。センセーショナルだが未検証のニュースレポートの真実/虚偽を(自動的に)判断するのに少し時間がかかるようにしましょう。
過剰適合モデルがまだ有用であることを否定していません。ただし、この70%が誤解を招く情報になる可能性があることに留意してください。どのようなモデルが有用であるかどうかを判断するために必要なのであるサンプル外のエラー、ないテストエラー我々はそれが盲目テストセットを使用して推定する必要がありますので、(サンプル外のエラーが知られていません)、そしてその70%はほとんど良い近似ではありません。
@RichardHardyのコメントの後、用語の同じページにいることを確認するために、ブラインドテストセットにモデルを適用するときに得られるエラーとしてテストエラーを定義しましょう。そして、サンプル外エラーは、母集団全体にモデルを適用するときのエラーです。
サンプル外エラーの近似値は、モデル自体とデータの2つのことに依存します。
「最適な」モデルは、データにほとんど依存しない(テスト)精度をもたらします。この場合、これは適切な近似になります。データに関係なく、予測エラーは安定しています。
ただし、オーバーフィットモデルの精度はデータに大きく依存します(トレーニングセットで100%、他のセットで70%を述べたように)。そのため、別のデータセットに適用すると、精度が70%未満(またはそれ以上)になり、予想外の結果になる可能性があります。言い換えれば、その70%があなたがそれが何であると信じているかをあなたに語っていますが、そうではありません。