ノンパラメトリック平滑化回帰による交差検証


8

回帰モデルを使用する場合、線形関連の仮定にデフォルトを設定することに不信感を覚えます。代わりに、必要に応じて非線形最小二乗回帰を使用してパラメトリックモデルを推定する前に、ノンパラメトリック平滑化回帰(たとえば、一般化された加法モデルlowess / lowess実行ラインスムーザーなど)を使用して、従属変数と説明変数間の関係の関数形式を調査しますノンパラメトリックモデルによって提案された関数のパラメーターを推定します。

そのようなアプローチのノンパラメトリック平滑化回帰フェーズで交差検証を実行することについて考える良い方法は何ですか?ランダムホールドアウトサンプルAで「折れたスティック」線形ヒンジ関数によって近似される関係が明らかである可能性があるのに対し、ホールドアウトサンプルBは放物線しきい値ヒンジ関数によって近似される関係を示唆する状況に遭遇するのではないかと思います。

非網羅的なアプローチをとって、データのランダムに選択された部分を抑制し、ノンパラメトリック回帰を実行し、結果の妥当な関数形式を解釈し、これを数回(人間が管理可能な)回数繰り返し、精神的に妥当な関数形式を数える?

または、徹底的なアプローチ(LOOCVなど)を実行し、アルゴリズムを使用して「すべてのスムージング」をスムージングし、最もスムースなスムースを使用してもっともらしい機能形式を通知しますか?(ただし、リフレクションでは、十分に大きなサンプルの関数形式が単一のデータポイントによって変更される可能性が低いため、LOOCVが非常に異なる関数の関係をもたらす可能性は非常に低いと思います。)

私のアプリケーションは通常、人間が管理できる数の予測変数(たとえば、数握りから数十)を伴いますが、サンプルサイズは数百から数十万の範囲になります。私の目的は、直観的に伝達され、簡単に翻訳できるモデルを作成することです。これは、私のデータセット以外の人々が予測を行うために使用でき、結果変数を含みません。

回答の参照は大歓迎です。


それはあなたの質問を明確にするのに役立ちます:交差検証で何を達成したいですか?どのスムージングモデルが最適かを判断しますか?
ジュボ2014

ありがとうございました。交差検証パラメトリック予測モデルの生成に興味があります。ただし、従属変数と独立変数の間の線形関数関係の仮定に慣れていません。したがって、上記で説明したノンパラメトリック->パラメトリック非線形アプローチ。提案された関数形式を検証するために、最初のステップでCVを取得することに興味があります(たとえば、ホールドアウトされたさまざまなサブサンプルがさまざまな関数を提案しますか?)。
Alexis

回答:


-1

あなたの質問には2つの混乱があるように私には思えます:

  • まず、線形(最小二乗)回帰では、独立変数ではなく、パラメーターでの線形関係が必要です。

    したがって、は通常の最小二乗法で推定できます(はパラメーター、、線形関数です))、一方、はできません(はパラメーター線形ではありません)。y=a+bバツeバツ+cz1+バツ2yabcy=a+bバツ+b2zyb

  • 第二に、どのようにスムーザーから「正しい」機能モデルを決定するのですか、つまり、ステップ1からステップ2にどのように進むのですか

    私の知る限りでは、スプラインやニューラルネットなどの平滑化手法から「使用するリグレッサの関数」を推測する方法はありません。平滑化された出力をプロットし、直観によって関係を決定することを除いて、私には非常に堅牢に聞こえますが、スキャッタープロットだけで平滑化する必要はないようです。

最終目標が線形回帰モデルであり、問​​題が、使用するべきリグレッサの関数形が正確にわからない場合は、正則化線形回帰モデル(LASSOなど)を元のリグレッサの大規模な展開(リグレッサの多項式、指数、対数など)正則化手順により、不要なリグレッサが排除され、(うまくいけば)パラメトリックモデルが得られます。また、交差検証を使用して、最適なペナルティパラメーター(モデルの実際の自由度を決定する)を決定できます。

ノンパラメトリック回帰は、正規化線形モデルがノンパラメトリック平滑化と同様に外部データを予測することを確認する方法として、汎化エラーのベンチマークとしていつでも使用できます。


1
あなたの第一のポイント:私はコミュニケーションが不十分です。あなたが示すように私は非線形パラメーター化に興味があります(例:ヒンジ関数:、ここでもパラメーターです推定される)。この質問の動機は、私が疑問に思うからです。ホールドアウトサブサンプルAは、たとえば、「壊れたスティック」ヒンジ関数を示唆しますが、ホールドアウトサブサンプルBは、放物線状のしきい値ヒンジ関数を示唆しますか?「正しい」(パラメーター化で非線形の可能性がある)関数関係を探しているのではなく、「予測」関係を探しています。CVにはここでの役割がありますか?βバツバツ+βh最高バツθ0θ
Alexis

2番目のポイント:ステップ1から2に移動することは直感を伴うと言うのは正しいです。ただし、このような「ロバストではない」アプローチを使用する利点の1つは(アルゴリズム曲線近似アプローチとは対照的に)、(私の経験では)結果と予測子の関係を合理的に直感的なパラメーター化(例:分数多項式関数)で伝達できることです。特定の形状/フォームを気にしないでください)、アルゴリズムのアプローチにかなり近いエラーがあります。したがって、線形パラメータの仮定よりも優れていますが、オーディエンスの解釈可能性は維持されます。
Alexis

LASSOが私のニーズを満たすかどうかは明確ではありません。私は状況ではありません。p>
Alexis

1
なげなわコメントを再検討することをお勧めします。なげなわはを念頭に置いて設計されましたが、その有用性はその状況に限定されません。特に、高い予測力を備えた節約的な(小さい)モデルを探す場合はそうです。ジュボは、大きな基底展開、スプライン、または直交多項式を追加することで共変量の数を拡張し、次にラッソに関連するものを選択させることを提案していました。p>
Matthew Drury、2015年

スプラインへのなげなわアプローチが本当に理想的であるかどうかはわかりませんが、それらはサポートが狭い傾向があるためです(キュービックの場合、4つの連続したノットの間でサポートされると思います)。ただし、L1およびL2ペナルティとglmnetの組み合わせによっては、機能する場合があります。
Matthew Drury、2015年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.