線形分類器による過剰適合


10

今日、私たちの教授はクラスで「線形分類器による過剰適合は不可能である」と述べました。線形分類子でもトレーニングセットの外れ値に敏感である可能性があるので、私はそれを間違っていると考えています。たとえば、ハードマージンのサポートベクトルマシンを考えてみます。それとも私は間違っていますか?明らかに、線形性はおそらくモデルの複雑さが低いために過適合を防ぐでしょうが、それでも過適合が不可能であるべき理由はわかりません。もう1つのポイントは、この問題について考えてみたところ、「過剰適合」が正式に定義されているようには見えないことに気付きました。何故ですか?トレーニングとテストセットのパフォーマンスの間の距離の測定によって、このような形式化が可能になりますか?ありがとう


4
なぜ線形分類子と言うのですか?ほとんどの線形モデルは分類用ではなく、予測用です。そして、あなたは正しい-線形モデルは過剰適合しがちです。機械学習手法ほどではありませんが、それでも過剰適合が問題になる可能性があります。
フランクハレル2015年

5
線形分類器をオーバーフィットするのは非常に簡単です。モデルをいくつかのデータセット(ノイズの多い現実の世界)に適合させ、正則化を使用しないでください。
Vladislavs Dovgalecs、2015年

2
分類に注意してください-通常、視力をそれほど低く設定する必要はありません。
フランクハレル2015年

2
@FrankHarrell ...そしてなぜ?
Pugl、2015年

1
はい、が元はバイナリであった場合。Yが最初は連続であった場合、分類はさらに問題になります。YY
フランクハレル、2015年

回答:


12

線形回帰/分類器は、適切な注意を払わずに使用すると、完全に適合しすぎる可能性があります。

ここに小さな例があります。2つのベクトルを作成してみましょう。最初のベクトルはランダムなコインフリップです。5000

set.seed(154)
N <- 5000
y <- rbinom(N, 1, .5)

2番目のベクトルは観測値で、それぞれが500のランダムクラスの1つにランダムに割り当てられます。5000500

N.classes <- 500
rand.class <- factor(sample(1:N.classes, N, replace=TRUE))

フリップyとランダムクラスの間に関係はないはずrand.classです。それらは完全に独立して決定されました。

しかし、ロジスティック回帰(線形分類器)を使用してランダムクラスでランダムフリップを予測しようとすると、確かに関係があると考えられます。

M <- glm(y ~ rand.class, family="binomial")
hist(coef(M), breaks=50)

ここに画像の説明を入力してください

これらの係数のすべての真の値はゼロです。しかし、ご覧のとおり、かなりの広がりがあります。この線形分類器は確かにオーバーフィットです。

1515y == 1y == 015

「過剰適合」は正式には定義されていないようです。何故ですか?

過剰適合は、いくつかの複雑性パラメーターを持つモデルのクラスのコンテキスト内で最もよく理解できます。この場合、複雑さがわずかに減少すると、サンプルのパフォーマンスが期待どおりになる場合、モデルはオーバーフィットであると言えます。

モデルに依存しない方法でコンセプトを正確に定義することは非常に困難です。単一のモデルはちょうどフィットします。フィットが上または下になるには、それを比較する何かが必要です。上記の私の例では、この比較は真実でしたが、通常は真実を知らないため、モデルです!

トレーニングとテストセットのパフォーマンスの間の距離の測定によって、このような形式化が可能になりますか?

そのような概念があり、それは楽観主義と呼ばれています。それは以下によって定義されます:

ω=EtestEtrain

E

より複雑なモデルでは両方が減少しますが、テストセットでのパフォーマンスはトレインよりもかなり悪い場合があるため、オーバーフィットの本質には至りません。


うわー、いい答えですね。1つの質問:線形SVMは、ログなどよりも過剰適合しにくい傾向があります。あなたが言及した回帰(線形決定境界のために最適化するさまざまな方法による)?
Pugl、2015年

1
私は認めざるを得ません、私はSVMの専門家ではなく、それらの使用に関する実際的な経験がありません。私は本当に答えに挑戦したくないし、非常に間違っている危険を冒したくない。あなたがそれを正確に定式化することができるならば、それはおそらくそれ自身の疑問の価値があります。
Matthew Drury

SVMは正規化されているため、過剰に適合しにくい傾向があります。最小化している関数を見るだけでよいことを理解するには、重みのl1ノルムまたはl2ノルムのいずれかが含まれ、最適化でそれらが縮小されるため、「複雑な」モデルより「単純な」モデルが優先されます。これを制御するパラメータは、Cハイパーパラメータです。限定的なケース(C =無限大)では、SVMはトレーニングセットに「完全に」適合します。したがって、それはおそらく過剰適合です(おそらく、確かにテストセットが必要です!)。また、多くの引用符を使用しましたが、これは適切に定義できます。
skd

2

70年代に、大規模なデータセットでパターン認識アルゴリズムを使用した実験により、追加機能を追加すると、テストセットのエラー率が増加することが明らかになりました。これは直観に反します。追加の機能を追加すると分類機能が常に向上するか、追加した機能が「ホワイトノイズ」の場合、その機能が分類機能にまったく影響しないためです。分類子にさらに多くの機能を追加し、最終的にテストセットのパフォーマンスを低下させる影響は、ピーキング現象として知られるようになりました [1]。

特徴のピークは、学習中の過度の一般化によって引き起こされます。追加機能により、分類子がデータを過剰適合し始めるほど多くの追加パラメーターが含まれます。したがって、ピーキングポイントが通過します。

一般に、分類子をトレーニングするとき、バイアス分散のトレードオフに直面します。使用する機能変数が多いほど、(不明な)基礎となる分類子メカニズムが分類子によってモデル化される可能性が高くなります。したがって、フィッティングされたモデルと「真実」との間の体系的な偏差は少なくなります。つまり、バイアスが小さくなります。一方、分類子の特徴空間を増やすと、必然的にパラメーター(追加された特徴に適合するもの)が追加されます。したがって、近似された分類子の分散も増加します。

したがって、ピーキングポイントを超えた分類子は、高次元の分類問題の確率論的実現の1つにすぎず、新しい近似は非常に異なるパラメーターベクトルをもたらします。この事実は、分散の増加を反映しています。

[1。GV Trunk、「A Problem of Dimensionality:A Simple Example」、IEEE Transactions on Pattern Analysis and Machine Intelligence、vol。PAMI-1、いいえ。3、pp。306-307、1979年7月]


1

過剰適合とは、汎化能力ではなくモデルの複雑さを指すと思います。「線形分類子は過剰適合できない」という引用がわかります。その複雑さは小さく、より優れたパフォーマンスを提供する単純な分類子は他にないためです。

この例は、線形分類子(および複雑な分類子)の汎化能力にリンクしています。この2番目の部分でさえ、線形分類子は通常、複雑なものより分散が少ないため、この概念に従う線形分類子の「オーバーフィッティング」値も小さくなります(ただし、それらの経験的リスクは非常に大きくなる可能性があります)。atb


0

@ match-maker-eeが言ったように、線形分類子は入力特徴に応じて過剰適合します。

次のモデルfは、パラメーターab、およびcで線形ですが、xの特徴空間の2次曲線に適合できます。

f(x)=ax2+bx+c

SVMは、基本的には拡張機能空間の線形モデルであるにもかかわらず、たとえばカーネルトリックを使用する場合にも適合しすぎます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.