線形回帰:「感度の低い」パラメーターを優先する方法


9

単純な回帰モデルがあります(y = param1 * x1 + param2 * x2)。モデルをデータに適合させると、2つの優れたソリューションが見つかります。

  • ソリューションA、params =(2,7)は、RMSE = 2.5のトレーニングセットで最適です

  • だが!ソリューションB params =(24,20)は、交差検証を行うと、検証セットで大きな成果を上げます。

ここに画像の説明を入力してください 私はこれが原因だと思います:

  • ソリューションAは悪いソリューションに囲まれています。したがって、ソリューションAを使用する場合、モデルはデータの変動に対してより敏感になります。

  • ソリューションBはOKソリューションで囲まれているため、データの変更に対する感度が低くなります。

これは私が考案したばかりの新しい理論ですか、良い隣人とのソリューションはあまり適合していませんか?:))

ソリューションAよりもソリューションBを優先するのに役立つ一般的な最適化方法はありますか?

助けて!


2
画像はトレーニングセットエラーですか?相互検証エラーに対して同じ画像を作成できますか?クールなプロットに賛成。
Zach

1
データも共有してもらえますか?これは興味深い問題です。
Zach

1
どんなCVを使いましたか?
ラクサンネイサン2017

1
モデルに切片はありますか?
EdM、2017

1
純粋に統計的な問題として、線形モデルに従って十分に大きなデータセットを分散させ、データセットの小さなサブセットを見ると、希望する勾配の値を持つサブセットがあります。したがって、これは単に偶然に発生するという帰無仮説に対してテストする必要があります。検証セットがトレーニングセットよりも信頼できると考える理由がある場合は、加重最小二乗回帰を使用して、検証セットとトレーニングセットの重要度を調整できます。
Dave Kielpinski 2017

回答:


2

y

したがって、より良いモデルである非線形モデルは、データを調査するための開始点になります。さらに、データについて何かを知らなければ、どの回帰法を確実に使用すべきかを言うことはできません。Tikhonov正則化、または関連する尾根回帰がOPの質問に対処する良い方法であることを提供できます。ただし、どの平滑化係数を使用する必要があるかは、モデリングによって何を取得しようとしているのかによって異なります。ここでの仮定は、回帰目標がないため、最小のrmseが最良のモデルになるということです(OLSは、物理的に定義された回帰ターゲットが概念化されていない場合に最もよく使用されるデフォルトの "go to"デフォルトメソッドです)。 。

では、この回帰を実行する目的は何ですか?その目的を定義しなければ、回帰の目標や目標はなく、表面的な目的で回帰を見つけているだけです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.