標本外データのモデルの精度は100%オーバーフィットですか?


11

私はcognitiveclass.aiのRコースの機械学習を完了し、ランダムフォレストの実験を開始しました。

Rの「randomForest」ライブラリを使用してモデルを作成しました。モデルは、goodとbadの2つのクラスに分類されます。

モデルがオーバーフィットである場合、モデル自体のトレーニングセットからのデータに対してはうまく機能しますが、サンプル外のデータに対してはうまく機能しないことを知っています。

モデルをトレーニングしてテストするために、データセット全体をシャッフルして、トレーニング用に70%とテスト用に30%に分割しました。

私の質問:テストセットで行われた予測から100%の精度を得ています。これは悪いですか?それは本当であるには余りにも良いようです。

目的は、4つの波形を相互に依存する波形認識です。データセットの機能は、ターゲット波形を含む波形のダイナミックタイムワーピング分析のコスト結果です。


サイトへようこそ!ノイズデータを予測してみましたか?
Toros91 2018

改造、トレーニング、テストするたびに、精度は100%ですか?
アレックス

@アレックス正確ではないが、98,55%と非常に高い状態が続く
ミラノファン

1
@アレックス11.35%は「大丈夫」、88.65%は「悪い」
ミラノファン

1
それはかなり不均衡です。リサンプリング(繰り返しサンプリング)を使用して、トレーニングセットのバランスをOKクラス(たとえば、30%にする)に傾け、テスト/検証セットで11/89の比率を維持します。何を手に入れますか?
アレックス

回答:


29

精度などの検証スコアが高いということは、一般的に過剰適合ではないことを意味しますが、注意が必要であり、問​​題が発生した可能性があります。また、問題がそれほど難しくなく、モデルが本当にうまく機能していることも意味します。うまくいかない可能性がある2つのこと:

  • データを適切に分割しておらず、検証データもトレーニングデータに含まれています。つまり、汎化を測定していないため、過剰適合を示しています。
  • 一部の機能エンジニアリングを使用して追加の機能を作成し、行がトレーニングセット内の他のターゲットだけでなく、現在のターゲットからの情報を使用しているターゲットリークを導入した可能性があります

11
100%の精度は常に「目標漏れ」を叫びます。
ポール、

1

調査して、最も予測可能な機能を確認します。時々、誤ってターゲット(またはターゲットと同等のもの)を機能に含めました。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.