線形回帰を解くときに、複数の局所最適解が存在しますか?


19

私は1つの古いtrue / false試験でこの声明を読みました。

勾配降下を使用して二乗誤差の合計を最小化することにより線形回帰問題を解くと、複数の局所最適解を得ることができます。

解決策:False

私の質問は、この質問のどの部分が間違っているのですか?なぜこの声明は偽ですか?

回答:


8

この質問は、統計の有能なユーザーが理解する必要がある最適化理論、最適化手法、および統計手法の間のいくつかの関係を明らかにする限り、興味深いものです。これらの接続はシンプルで簡単に習得できますが、微妙であり、しばしば見落とされます。

コメントから他の返信へのいくつかのアイデアを要約するために、「線形回帰」が理論的にだけでなく実際に非固有のソリューションを生成できる少なくとも2つの方法があることを指摘したいと思います

識別可能性の欠如

1つ目は、モデルが識別できない場合です。これにより、複数の解をもつ凸であるが厳密に凸ではない目的関数が作成されます。

たとえば、データとに対してを回帰(切片を使用)することを検討してください。1つの解決策はです。もう1つはです。複数の解が必要であることを確認するには、3つの実パラメーターとエラー項を次の形式でモデル化してください。X Y X Y Z 1 - 1 0 2 - 2 - 1 3 - 3 - 2 Z = 1 + Y 、Z = 1 - X λ μ ν εzバツyバツyz110221332z^=1+yz^=1バツλμνε

z=1+μ+(λ+ν1)x+(λν)y+ε.

残差の二乗和は、

SSR=3μ2+24μν+56ν2.

(これは、M推定器の経験的ヘッシアンを不定にできますか?で説明されているような、実際に生じる目的関数の限定的なケースです。ここで、関数の詳細な分析を読み、プロットを表示できます。)

正方形(および)の係数は正であり、行列式は正であるため、これは正半二次形式です。。これは、最小化されたとき、しかしいかなる値を持つことができます。 目的関数はに依存しないため、その勾配(またはその他の導関数)も依存しません。したがって、勾配降下アルゴリズムは、方向の任意の変更を行わない場合、ソリューションのの値を開始値に設定します。56 3 × 56 - 24 / 2 2 = 24 μ ν λ μ = ν = 0 λ SSR λ λ3563×56(24/2)2=24(μ,ν,λμ=ν=0λSSRλλ

勾配降下を使用しない場合でも、ソリューションは異なる場合があります。Rように:、例えば、このモデルを指定するには、2つの簡単な、同等の方法がありますz ~ x + yかがz ~ y + x。最初はが、2番目はます。 、Z =1+Yz^=1バツz^=1+y

> x <- 1:3
> y <- -x
> z <- y+1

> lm(z ~ x + y)
Coefficients:
(Intercept)            x            y  
          1           -1           NA  


> lm(z ~ y + x)
Coefficients:
(Intercept)            y            x  
          1            1           NA 

NA値はゼロとして解釈される必要がありますが、複数のソリューションが存在するという警告が表示されますR。良いものは、最適な状態に到達したという不確実性について警告するでしょう)

パラメータの制約

パラメーターの領域が凸である場合、厳密な凸性により、一意のグローバル最適が保証されます。 パラメータの制限により、非凸状ドメインが作成され、複数のグローバルソリューションにつながる可能性があります。

非常に簡単な例は、制限の対象となるデータ「平均」を推定する問題によって与えられます。これは、Ridge Regression、Lasso、Elastic Netなどの正則化方法の反対のような状況をモデル化したものです。モデルパラメーターが小さくなりすぎないことを主張しています。(このサイトには、このようなパラメーター制約を使用した回帰問題の解決方法を尋ねるさまざまな質問があり、実際に発生することを示しています。)- 1 1 | μ | 1 / 2μ11|μ|1/2

この例には2つの最小二乗解があり、どちらも同等に優れています。それらは、制約の対象となる最小化することで見つかります。2つのソリューションはです。パラメータの制限によりドメイン非凸になるため、複数の解決策が発生する可能性があります。| μ | 1 / 2 μ = ± 1 / 2 μ - - 1 / 2 ] [ 1 / 2 1μ2+1μ2|μ|1/2μ=±1/2μ1/2][1/2

$ \ mu $に対する平方和のプロット

放物線は、(厳密に)凸関数のグラフです。太い赤の部分はの領域に制限された部分です。2つの最低点がにあります。ここで、平方和はです。放物線の残りの部分(点線で示されている)は制約によって削除されるため、その固有の最小値が考慮されなくなります。μ = ± 1 / 2 5 / 2μμ=±1/25/2

勾配降下法、それが大きなジャンプを取って喜んでいたしない限りは、おそらく「ユニーク」解決策を見つけるだろう正の値で開始したときに、それ以外の場合は、「ユニークな」解決策を見つけるでしょう負の値で開始する場合は。μ = - 1 / 2μ=1/2μ=1/2

同じ状況は、より大きなデータセットとより高い次元で発生する可能性があります(つまり、より多くの回帰パラメータが適合します)。


1
厳密に凸ではなく、無限に多くの最小値をもつ凸関数の非常に単純な例は、です。線上の任意の点が最小点です。fバツy=バツy2y=バツ
kjetil bハルヴォルセン

1
@Kjetilありがとう、それは本当です。ここでのコツは、このような関数が回帰状況で実際にどのように発生するかを示すことです。あなたの機能はまさに私が提供した最初の例のインスピレーションです。
whuber


2

あなたの質問に対するバイナリの回答はありません。線形回帰が厳密に凸である場合(係数に制約がなく、正則化器などもありません)、勾配降下法は一意の解を持ち、グローバルに最適になります。勾配降下は、凸でない問題がある場合、複数のソリューションを返すことができます。

OPは線形回帰を要求しますが、以下の例は最小二乗最小化を示していますが、非線形(OPが望む線形回帰)は複数の解を持ち、勾配降下は異なる解を返すことができます。

私は簡単な例を使用して経験的に示すことができます

  1. 二乗誤差の合計は非凸になる場合があるため、複数のソリューションがあります
  2. 勾配降下法は、複数のソリューションを提供できます。

次の問題に対して最小二乗を最小化しようとしている例を考えてみましょう。

ここに画像の説明を入力してください

目的関数を最小化してを解こうとしているところ。上記の機能は微分可能ですが、非凸であり、複数のソリューションを持つことができます。以下を参照して実際の値を代入しください。wa

a12=9a13=1/9a23=9a31=1/9

mnmze 9w1w22+19w1w32+19w2w12+9w2w32+9w3w12+19w3w22

上記の問題には3つの異なる解決策があり、それらは次のとおりです。

w=0.6700.2420.080obj=165.2

w=0.0800.2420.670obj=165.2

w=0.2420.6700.080obj=165.2

上記のように、最小二乗問題は非凸である可能性があり、複数の解決策を持つことができます。その後、Microsoft Excelソルバーなどの勾配降下法を使用して上記の問題を解決でき、実行するたびに異なるソリューションが得られます。勾配降下はローカルオプティマイザーであり、ローカルソリューションで行き詰まる可能性があるため、真のグローバル最適化を得るには異なる開始値を使用する必要があります。このような問題は、開始値に依存しています。


2
OPは一般的な最適化ではなく線形回帰について具体的に尋ねるため、これがOPの質問に答えるとは思わない。
シコラックスは、Reinstate Monica

1
いいえ、そうではありませんが、最適化の問題を指摘しようとするだけで、警告付きで更新されます
予報官

@ user777あなたは正しいです。これは、MITの古い試験に関する非常に有効な質問です。フォーキャストのおかげで、答えは間違いだと確信しています。
アンジェラミノー

だから私は正しいと確信していますか?
アンジェラミノー

@AnjelaMinoeu、回答を更新しました。
予報官

1

これは、最小化する目的関数が凸であり、最小/最大が1つしかないためです。したがって、ローカル最適はグローバル最適でもあります。勾配降下は最終的に解決策を見つけます。

なぜこの目的関数は凸であるのですか?これは、最小化のために二乗誤差を使用する利点です。導出とゼロへの平等は、これがなぜそうなのかをうまく示します。それはかなり教科書の問題であり、ほぼどこでもカバーされています。


4
凸は、一意の最小値を意味するものではありません。通常、凸領域で定義された目的関数の厳密な凸性に訴える必要があります。また、ここでの問題は、浮動小数点演算を使用した勾配降下の終了基準です:目的関数が厳密に凸である場合でも、関数はその最小値近くでほぼ平坦な場合、(開始値に応じて)異なる解を見つける可能性があります。
whuber

@whuber簡単でわかりやすくしてください。
アンジェラミノー

@whuber最初の問題は用語の使用だと思います。第二に、凸性は一意の最小値を意味します。単一の最小/最大を持たない微分可能な凹関数は見えません。ここで証明を参照してください:planetmath.org/localminimumofconvexfunctionisnecessarilyglobal
Vladislavs Dovgalecs

3
私は証明を読むことを気にしませんでした、なぜならそれが正しいために厳密な凸性を呼び出さなければならないからです。識別できない係数を伴う最小二乗問題は凸であるが厳密に凸ではないため、(無限に)多くの解を持ちます。しかし、それは勾配降下に完全に関連しているわけではありません。勾配降下には独自の問題があり、そのいくつかはウィキペディアの記事で明確に議論されています。したがって、理論的および実用的な意味の両方で、質問に対する正しい答えは真です。勾配降下法は、複数の解決策を提供できます。
whuber

@whuberはい、証明は厳密な凸性に訴えます。
ヴラディスラフドブガレス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.