SVMモデルからの学習曲線がバイアスまたは分散の影響を受けるかどうかを知る方法は?


回答:


13

パート1:学習曲線の読み方

まず、評価のための十分なデータがあるプロットの右側に注目する必要があります。

  • 2つの曲線が「互いに近く」、両方とも曲線であるが、スコアが低い場合。モデルに適合不足の問題があります(高バイアス)

  • トレーニングカーブのスコアがはるかに優れているが、テストカーブのスコアが低い場合、つまり2つのカーブの間に大きなギャップがある場合。次に、モデルは過剰適合問題(高分散)に悩まされます。

パート2:あなたが提供したプロットに対する私の評価

プロットから、モデルが良好かどうかを判断するのは困難です。あなたは本当に「簡単な問題」を抱えている可能性があり、良いモデルは90%を達成することができます。一方で、私たちができる最善のことは70%を達成することが本当に「難しい問題」である可能性があります。(完全なモデルが得られるとは思わないかもしれません。たとえば、スコアは1です。達成できる量は、データ内のノイズの量によって異なります。何をしても、スコアで1を達成することはできません。)

あなたの例のもう一つの問題は、350の例が実際のアプリケーションでは小さすぎるように見えることです。

パート3:その他の提案

理解を深めるために、次の実験を行って、オーバーフィッティングの下で​​経験し、学習曲線で何が起こるかを観察できます。

  • MNISTデータなどの非常に複雑なデータを選択し、1つの特徴を持つ線形モデルなどの単純なモデルに適合させます。

  • SVMなどの複雑度モデルに適合する単純なデータ(虹彩データなど)を選択します。


パート4:その他の例

さらに、アンダーフィットとオーバーフィットに関連する2つの例を示します。これは学習曲線ではなく、勾配ブースティングモデルの反復回数に対するパフォーマンスに関するものであることに注意してください。x軸は反復回数を示し、y軸はパフォーマンスを示します。これはROCの負の領域です(低いほど良い)。

左側のサブプロットはオーバーフィッティングの影響を受けません(パフォーマンスがかなり良いため、アンダーフィッティングもよくありません)が、右側のサブプロットは反復回数が多い場合にオーバーフィッティングの影響を受けます。

ここに画像の説明を入力してください


ありがとうhxd1011!私のモデルが少しの分散と少しの偏りに苦しんでいると言った場合、あなたは私に同意しますか?
アフケ

@Papieモデルは大丈夫だと思う...スコアの80%は悪くなく、2つの曲線は近い。唯一の問題は、実世界のアプリケーションでは小さすぎるかもしれない例が350まであることです。
ハイタオデュ

@Papieまた、スコアが1であると言う完璧なモデルがあるとは思わないかもしれません。どれだけ達成できるかは、データのノイズの量に依存します。データに多数のデータポイントがあり、EXACT機能がありますが、ラベルが異なる場合、何をしても、スコアで1を達成することはできません。
ハイタオデュ

11
彼の「スコアの80%は悪くない」と考えるのは良い方法ではないと思います。良いグローバルスコアはありません。解決される問題、より具体的には、プロセスの信号対雑音比と利用可能なデータに大きく依存します。あなたの答えでこれを指摘しているので、「悪くない」コメントを削除します。
マシュードゥルーリー

1
@MatthewDrury提案をありがとう、回答が修正されました!
ハイタオデュ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.