機械学習モデルにおける用語「分散」の意味は何ですか?


8

高バイアスと高分散という用語と、モデルへの影響についてよく知っています。

基本的に、モデルが複雑すぎて感度が高すぎて外れ値である場合、モデルの分散は大きくなります。

しかし、最近、インタビューの1つで機械学習モデルの用語「分散」の意味を尋ねられました。

MLモデルでVarianceが正確に何を意味するのか、そしてそれがモデルにどのように導入されるのか知りたいのですが?誰かが例を挙げてこれを説明できたら本当にありがたいです。


統計の分散はMLの分散と同じです。それは、MLが統計のブランドを変更したからです。
Jon

回答:


10

それはあなたが言ったこととほとんど同じです。正式に言うことができます:

分散は、機械学習のコンテキストでは、トレーニングセットの小さな変動に対するモデルの感度が原因で発生するエラーの一種です。

分散大きいと、アルゴリズムがトレーニングセットのノイズをモデル化します。これは最も一般的にオーバーフィッティングと呼ばれます

機械学習の分散について説明するとき、バイアスについても触れます。

バイアスは、機械学習のコンテキストでは、学習アルゴリズムの誤った仮定が原因で発生するエラーの一種です。

バイアスが大きいと、アルゴリズムが入力フィーチャとターゲット出力の間の関連関係を見逃ししまいます。これは、アンダーフィッティングと呼ばれることもあります。

バイアスと分散の関係:

ほとんどの場合、これら2つのエラーの1つを最小化しようとすると、もう1つが増加します。したがって、この2つは通常トレードオフと見なされます。

MLの高いバイアス/変動の原因:

モデルのバイアス/分散を決定する最も一般的な要因は、その容量です(これはモデルがどれほど複雑であると考えてください)。

  • 低容量モデル(例:線形回帰)は、機能とターゲットの間の関連性を失う可能性があり、それらに高いバイアスがかかる原因になります。これは上の左の図で明らかです。

  • 一方、高容量モデル(例:高次多項式回帰、多くのパラメーターを持つニューラルネットワーク)は、トレーニングセット内の関連する関係とともにノイズの一部をモデル化し、それらが高い分散を持つようにします。上の右の図。

モデルの分散を減らす方法は?

MLモデルの分散を減らす最も簡単で最も一般的な方法は、有効容量を制限する手法、つまり正則化を適用することです。

最も一般的な正則化の形式は、パラメータノルムペナルティです。これは、トレーニングフェーズ中のパラメータの更新を制限します。早期停止。トレーニングを短くします。ツリーベースのアルゴリズムの剪定。ニューラルネットワークなどのドロップアウト

モデルは、バイアスと分散の両方を低くできますか?

はい。同様に、下の図に示すように、モデルは高いバイアスと高い分散の両方を持つことができます。

低バイアスと低分散の両方を実現するにはどうすればよいですか?

実際には、ほとんどの方法論は次のとおりです。

  1. 問題を十分にモデル化するのに十分な容量のアルゴリズムを選択してください。この段階では、バイアス最小化したいので、分散についてはまだ心配していません。
  2. 上記のモデルを正則化して、その分散最小化します。

4

分散とは、トレーニングデータとテストデータの間のMLモデルの予測精度の変化です。

つまり、MLモデルがトレーニングデータに対して「x」の精度で予測し、テストデータに対する予測精度が「y」の場合、

分散= x-y


1

分散とは、特定のデータポイントまたはデータの広がりを示す値に対するモデル予測の変動性です。分散の大きいモデルは、トレーニングデータに多くの注意を払い、これまでに見たことのないデータを一般化しません。その結果、そのようなモデルはトレーニングデータに対して非常に優れたパフォーマンスを発揮しますが、テストデータに対してはエラー率が高くなります。

差異によるエラー

分散による誤差は、1つのトレーニングセットの予測が、すべてのトレーニングセットの期待値と異なる量です。機械学習では、トレーニングデータセットが異なると、推定値も異なります。しかし、理想的には、トレーニングセット間で大きく変動しないようにする必要があります。ただし、メソッドの分散が大きい場合、トレーニングデータの小さな変化が結果に大きな変化をもたらす可能性があります。

https://www.coursera.org/lecture/machine-learning/diagnosing-bias-vs-variance-yCAup

https://towardsdatascience.com/understanding-the-bias-variance-tradeoff-165e6942b229

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.