2つの線形回帰モデルがある場合、どちらのモデルのほうがパフォーマンスが向上しますか?


14

私は大学で機械学習コースを始めました。クイズの1つで、この質問が尋ねられました。

モデル1:

y=θx+ϵ
モデル2:
y=θx+θ2x+ϵ

上記のモデルのどれがデータによりよく適合しますか?(線形回帰を使用してデータをモデル化できると仮定)

(教授によると)正しい答えは、両方のモデルが同等にうまく機能するということです。ただし、最初のモデルの方が適していると思います。

これが私の答えの背後にある理由です。以下のように書き換えることができる第2のモデル、αx+ϵα=θ+θ2第一のモデルと同じではないであろう。α実際に放物線であるため、最小値を有する(0.25この場合は)。このため、最初のモデルのθの範囲は、2番目のモデルのの範囲よりも大きくなっていますα。したがって、データがそのようなもので、最適な近似の勾配が-0.25、第2のモデルは、最初の1に比べて非常にうまく機能しないでしょう。ただし、ベストフィットの勾配が0.25、両方のモデルのパフォーマンスは同等です。

最初の方が良いのですか、それともまったく同じですか?


3
あなたは正しいと思います。パラメータがあることを必要発現可能としてθ + θ 2(いくつかのためのθ実際にどのように制約を強制しない)α sが可能です」。これは、本質的に制約付き最適化問題であるため、2番目のモデルは最初のモデルよりも少ない関係を表現できることを意味します。あなたの推論は私には堅実に思えます。αθ+θ2θα
マシュードゥルーリー

@MatthewDrury私はどこで間違ったのかを見つけたので、以下の回答(およびコメント)を見てください
クッシュ

3
私はあなたのコメントを見ますが、それはが複雑な値を取ると仮定するかなり真剣な体操です。私は間違いなくあなたの教授とこれについて話すためにいくつかのオフィスアワーに出席します。どちらの方法でも良い議論が得られます。θ
マシュードゥルーリー

1
-0.25がどこから来るのかは明確ではありません。明確にできますか?
マッドジャック

1
教授が各モデルを2点データセット適合させる方法に興味があります。モデル1でθ = 1の場合、適合は完全ですが、完全な適合を得るためにモデル2でどのようにθを推定しますか?{1122}θ=1θ
whuber

回答:


9

:モデル2のように書くことができる。 これは、ハイパーパラメーター(θ β)の表記が異なるだけで、モデル1に似ているようです。しかし、モデル1のために、私たちは書くことができθ = X

y=(θ+θ2)x+ϵ=βx+ϵ.
θ,β
θ^=(XX)1Xy.

しかし、モデル2に、我々はそれを持っているので、 あなたが実際に述べたように範囲βはに属している必要があります[ - 0.25 +

β=θ+θ2,
β^のための θ R。これにより、これら2つのモデルに違いが生じます。[0.25,+]θR

従って、モデル2には、モデル1とは異なり、あなたの係数の推定値を制約していることは、モデル1にことに留意すべきである、これはより明確にするために、θは、正方形の損失関数最小化することによって得られる θ = argのθ RYを- X θ θ^ しかし、モデル2で推定を介して取得された β =引数β - 0.25Y-Xのβ

θ^=argminθR  (yXθ)(yXθ)=(XX)1Xy.
異なる結果をもたらすかもしれません。
β^=argminβ0.25  (yXβ)(yXβ)

1
それは理にかなっています、2番目のモデルではに制約がないことを私はただ思いました!場合θ + θ 2は、負であり、θθθ+θ2θ複素数値を持っているかもしれません。ただし、それは実際にはモデルに影響しません。賛成票はありませんが、どうもありがとう!
クッシュ

@kushあなたの懸念を解決する私の編集された応答を確認してください
ウィス

1

私はあなたの推論を理解しているかどうかわかりません。あなたが取る場合:

y=αx+ϵ
y=θx+ϵ

αθαθR2θα=θ+θ2


5
θ(,)α(0.25,)x
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.