回答:
それはあなたが言ったこととほとんど同じです。正式に言うことができます:
分散は、機械学習のコンテキストでは、トレーニングセットの小さな変動に対するモデルの感度が原因で発生するエラーの一種です。
分散が大きいと、アルゴリズムがトレーニングセットのノイズをモデル化します。これは最も一般的にオーバーフィッティングと呼ばれます。
機械学習の分散について説明するとき、バイアスについても触れます。
バイアスは、機械学習のコンテキストでは、学習アルゴリズムの誤った仮定が原因で発生するエラーの一種です。
バイアスが大きいと、アルゴリズムが入力フィーチャとターゲット出力の間の関連関係を見逃してしまいます。これは、アンダーフィッティングと呼ばれることもあります。
バイアスと分散の関係:
ほとんどの場合、これら2つのエラーの1つを最小化しようとすると、もう1つが増加します。したがって、この2つは通常トレードオフと見なされます。
MLの高いバイアス/変動の原因:
モデルのバイアス/分散を決定する最も一般的な要因は、その容量です(これはモデルがどれほど複雑であると考えてください)。
低容量モデル(例:線形回帰)は、機能とターゲットの間の関連性を失う可能性があり、それらに高いバイアスがかかる原因になります。これは上の左の図で明らかです。
一方、高容量モデル(例:高次多項式回帰、多くのパラメーターを持つニューラルネットワーク)は、トレーニングセット内の関連する関係とともにノイズの一部をモデル化し、それらが高い分散を持つようにします。上の右の図。
モデルの分散を減らす方法は?
MLモデルの分散を減らす最も簡単で最も一般的な方法は、有効容量を制限する手法、つまり正則化を適用することです。
最も一般的な正則化の形式は、パラメータノルムペナルティです。これは、トレーニングフェーズ中のパラメータの更新を制限します。早期停止。トレーニングを短くします。ツリーベースのアルゴリズムの剪定。ニューラルネットワークなどのドロップアウト
モデルは、バイアスと分散の両方を低くできますか?
はい。同様に、下の図に示すように、モデルは高いバイアスと高い分散の両方を持つことができます。
低バイアスと低分散の両方を実現するにはどうすればよいですか?
実際には、ほとんどの方法論は次のとおりです。
分散とは、特定のデータポイントまたはデータの広がりを示す値に対するモデル予測の変動性です。分散の大きいモデルは、トレーニングデータに多くの注意を払い、これまでに見たことのないデータを一般化しません。その結果、そのようなモデルはトレーニングデータに対して非常に優れたパフォーマンスを発揮しますが、テストデータに対してはエラー率が高くなります。
差異によるエラー
分散による誤差は、1つのトレーニングセットの予測が、すべてのトレーニングセットの期待値と異なる量です。機械学習では、トレーニングデータセットが異なると、推定値も異なります。しかし、理想的には、トレーニングセット間で大きく変動しないようにする必要があります。ただし、メソッドの分散が大きい場合、トレーニングデータの小さな変化が結果に大きな変化をもたらす可能性があります。
https://www.coursera.org/lecture/machine-learning/diagnosing-bias-vs-variance-yCAup
https://towardsdatascience.com/understanding-the-bias-variance-tradeoff-165e6942b229