回答:
この質問は、統計の有能なユーザーが理解する必要がある最適化理論、最適化手法、および統計手法の間のいくつかの関係を明らかにする限り、興味深いものです。これらの接続はシンプルで簡単に習得できますが、微妙であり、しばしば見落とされます。
コメントから他の返信へのいくつかのアイデアを要約するために、「線形回帰」が理論的にだけでなく実際に非固有のソリューションを生成できる少なくとも2つの方法があることを指摘したいと思います。
1つ目は、モデルが識別できない場合です。これにより、複数の解をもつ凸であるが厳密に凸ではない目的関数が作成されます。
たとえば、データとに対してを回帰(切片を使用)することを検討してください。1つの解決策はです。もう1つはです。複数の解が必要であることを確認するには、3つの実パラメーターとエラー項を次の形式でモデル化してください。X Y (X 、Y 、Z )(1 、- 1 、0 )、(2 、- 2 、- 1 )、(3 、- 3 、- 2 )Z = 1 + Y 、Z = 1 - X (λ 、μ 、ν )ε
残差の二乗和は、
(これは、M推定器の経験的ヘッシアンを不定にできますか?で説明されているような、実際に生じる目的関数の限定的なケースです。ここで、関数の詳細な分析を読み、プロットを表示できます。)
正方形(および)の係数は正であり、行列式は正であるため、これは正半二次形式です。。これは、最小化されたとき、しかしいかなる値を持つことができます。 目的関数はに依存しないため、その勾配(またはその他の導関数)も依存しません。したがって、勾配降下アルゴリズムは、方向の任意の変更を行わない場合、ソリューションのの値を開始値に設定します。56 3 × 56 - (24 / 2 )2 = 24 (μ 、ν 、λ )μ = ν = 0 λ SSR λ λ
勾配降下を使用しない場合でも、ソリューションは異なる場合があります。R
ように:、例えば、このモデルを指定するには、2つの簡単な、同等の方法がありますz ~ x + y
かがz ~ y + x
。最初はが、2番目はます。 、Z =1+Y
> x <- 1:3
> y <- -x
> z <- y+1
> lm(z ~ x + y)
Coefficients:
(Intercept) x y
1 -1 NA
> lm(z ~ y + x)
Coefficients:
(Intercept) y x
1 1 NA
(NA
値はゼロとして解釈される必要がありますが、複数のソリューションが存在するという警告が表示されますR
。良いものは、最適な状態に到達したという不確実性について警告するでしょう)
パラメーターの領域が凸である場合、厳密な凸性により、一意のグローバル最適が保証されます。 パラメータの制限により、非凸状ドメインが作成され、複数のグローバルソリューションにつながる可能性があります。
非常に簡単な例は、制限の対象となるデータ「平均」を推定する問題によって与えられます。これは、Ridge Regression、Lasso、Elastic Netなどの正則化方法の反対のような状況をモデル化したものです。モデルパラメーターが小さくなりすぎないことを主張しています。(このサイトには、このようなパラメーター制約を使用した回帰問題の解決方法を尋ねるさまざまな質問があり、実際に発生することを示しています。)- 1 、1 | μ | ≥ 1 / 2
この例には2つの最小二乗解があり、どちらも同等に優れています。それらは、制約の対象となる最小化することで見つかります。2つのソリューションはです。パラメータの制限によりドメイン非凸になるため、複数の解決策が発生する可能性があります。| μ | ≥ 1 / 2 μ = ± 1 / 2 μ ∈ (- ∞ 、- 1 / 2 ] ∪ [ 1 / 2 、∞ )
放物線は、(厳密に)凸関数のグラフです。太い赤の部分はの領域に制限された部分です。2つの最低点がにあります。ここで、平方和はです。放物線の残りの部分(点線で示されている)は制約によって削除されるため、その固有の最小値が考慮されなくなります。μ = ± 1 / 2 5 / 2
勾配降下法、それが大きなジャンプを取って喜んでいたしない限りは、おそらく「ユニーク」解決策を見つけるだろう正の値で開始したときに、それ以外の場合は、「ユニークな」解決策を見つけるでしょう負の値で開始する場合は。μ = - 1 / 2
同じ状況は、より大きなデータセットとより高い次元で発生する可能性があります(つまり、より多くの回帰パラメータが適合します)。
あなたの質問に対するバイナリの回答はありません。線形回帰が厳密に凸である場合(係数に制約がなく、正則化器などもありません)、勾配降下法は一意の解を持ち、グローバルに最適になります。勾配降下は、凸でない問題がある場合、複数のソリューションを返すことができます。
OPは線形回帰を要求しますが、以下の例は最小二乗最小化を示していますが、非線形(OPが望む線形回帰)は複数の解を持ち、勾配降下は異なる解を返すことができます。
私は簡単な例を使用して経験的に示すことができます
次の問題に対して最小二乗を最小化しようとしている例を考えてみましょう。
目的関数を最小化してを解こうとしているところ。上記の機能は微分可能ですが、非凸であり、複数のソリューションを持つことができます。以下を参照して実際の値を代入しください。
上記の問題には3つの異なる解決策があり、それらは次のとおりです。
上記のように、最小二乗問題は非凸である可能性があり、複数の解決策を持つことができます。その後、Microsoft Excelソルバーなどの勾配降下法を使用して上記の問題を解決でき、実行するたびに異なるソリューションが得られます。勾配降下はローカルオプティマイザーであり、ローカルソリューションで行き詰まる可能性があるため、真のグローバル最適化を得るには異なる開始値を使用する必要があります。このような問題は、開始値に依存しています。
これは、最小化する目的関数が凸であり、最小/最大が1つしかないためです。したがって、ローカル最適はグローバル最適でもあります。勾配降下は最終的に解決策を見つけます。
なぜこの目的関数は凸であるのですか?これは、最小化のために二乗誤差を使用する利点です。導出とゼロへの平等は、これがなぜそうなのかをうまく示します。それはかなり教科書の問題であり、ほぼどこでもカバーされています。