予測ではなくモデリングのみに関心がある場合、正則化は役立ちますか?


19

予測や予測ではなく、モデルパラメーターの推定(および解釈)のみに関心がある場合、正則化は役立ちますか?

あなたの目標が新しいデータの良い予測をすることである場合、正則化/相互検証が非常に有用であることがわかります。しかし、伝統的な経済学をやっていて、見積もるだけなら、どうでしょうか?クロスバリデーションもそのコンテキストで役立ちますか?概念的な難易私の闘争は、我々が実際に計算できるということであるL Y Y試験データに、しかし、我々はできる計算決してL β β真ため、βが観測されたことがない定義です。(真のβさえ存在すると仮定してくださいβL(Y,Y^)L(β,β^)ββ、つまり、データが生成されたモデルのファミリーを知っていること。)

あなたの損失があると仮定。バイアスと分散のトレードオフに直面していますよね?そのため、理論的には、いくつかの正則化を行う方が良いかもしれません。しかし、どのようにして正則化パラメーターを選択できますか?L(β,β^)=ββ^

私は、係数を持つ線形回帰モデルの簡単な数値例を参照させていただき研究者の損失関数は、例えばある、β - βをでも、またはちょうどβ 1 - β 1 2。実際には、これらの例で予想される損失を改善するために相互検証をどのように使用できますか?β(β1,β2,,βk)ββ^(β1β^1)2


編集:DJohnson は、この質問に関連するhttps://www.cs.cornell.edu/home/kleinber/aer15-prediction.pdfを指摘してくれました。著者はそれを書く

技術を機械学習...予測する統制のとれた方法で提供さ Y(i)は、バイアス・分散トレードオフを作る方法を決定するためにデータ自体を使用し、及び(ii)の変数の非常に豊富なセットを介して検索を可能にし、機能フォーム。しかし、すべてはコストがかかります。一つは、常に彼らが調整されているので、ことを心に留めておく必要がありY 、彼らは(他の多くの仮定なし)のために非常に便利な保証を与えていませんβY^Y^β^

別の関連する紙、再びDJohnsonのおかげ: http://arxiv.org/pdf/1504.01132v3.pdf。このペーパーは、私が上記で苦労していた質問に対処します。

...既成の回帰ツリーなどの機械学習法を因果推論の問題に適用する際の基本的な課題は、交差検証に基づく正則化アプローチは通常、「グラウンドトゥルース」、つまり実際の結果の観察に依存することです。交差検定サンプル。しかし、治療効果の平均二乗誤差を最小化することが目標である場合、[11]が「因果推論の根本的な問題」と呼ぶものに遭遇します。因果効果は個々のユニットで観察されないため、直接真実があります。治療の因果効果の平均二乗誤差の不偏推定値を構築するためのアプローチを提案することにより、これに対処します。


2
クロス検証は、データマイニングおよび機械学習ツールキットの1つの方法にすぎません。MLは経済学での使用が増えています-スーザン・アタイのスタンフォードのウェブサイト(彼女はML技術の経済学への統合に興味のある学者です)またはこの論文の予測されない政策問題をクラインバーグらが参照しています。 cornell.edu/home/kleinber/aer15-prediction.pdf
マイクハンター

9
多くの人にとってのMLは機械学習を示唆し、他の多くの人にとっては最尤法を示唆しています。(定義:MLが自動的に機械学習として自分自身に変換される場合、あなたはフェンスの機械学習側にいます。)
ニックコックス

3
@Aksakal私の経験では、伝統的な計量経済学は、学部生と大学院生の両方に教えられているように、クロスバリデーションにはほとんど注意を払っていません。古典的な教科書である林を見てください。もちろん、相互検証とバイアスと分散のトレードオフは、特に予測に関するコースで言及されていますが、すべての学生が開始するコアコースでは言及されていません。それはあなたにぴったりですか?
エイドリアン

2
@エイドリアン私は人々がこの質問を広すぎるとして終了することに投票しているのを見ます。そうかもしれませんが、私が見るように、あなたは基本的に「予測ではなく、モデリングのみに興味がある場合、CVは役立つでしょうか?」と尋ねています。-私があなたを正しく理解していれば、あなたの質問は簡単に編集および単純化できるので、それはより明確で、確かに広すぎません(興味深いことです!)。
ティム

2
@エイドリアンので、それは非常に興味深い質問です!私はあなたがそれを明らかに複雑にし、ここで計量経済学への言及は重要ではないのではないかと思う(それは統計的手法が使用される他の分野と同じであるため)。質問を簡素化するために編集することをお勧めします。
ティム

回答:


2

はい、バイアスのかかった低分散推定が必要な場合。Gungの投稿がここで特に気に入っています。収縮方法はどのような問題を解決しますか?ここにgungの図を貼り付けてください...

ここに画像の説明を入力してください 作成されたプロットを確認すると、正則化/収縮が必要な理由が明確になります。最初は、なぜ偏った推定が必要なのか不思議に思います。しかし、その図を見ると、低分散モデルには多くの利点があることがわかりました。たとえば、実稼働環境での使用はより安定しています。


はい、しかし、どのように正則化パラメーターを選択しますか?目標が予測エラーを最小限にすることである場合、検証セットを使用できます。真のモデルパラメーターを観察しない場合、検証セットをどのように使用できますか?
エイドリアン

私の質問の最後にある「因果推論の基本的な問題」に関する引用を参照してください。
エイドリアン

1

予測ではなく、モデリング(パラメータの推定)のみに関心がある場合、交差検証は役立ちますか?

はい、できます。たとえば、先日、デシジョンツリーを使用してパラメーターの重要度の推定を使用していました。ツリーを構築するたびに、相互検証エラーをチェックします。エラーをできる限り減らすようにし、パラメーターの重要性を推定する次のステップに進みます。構築する最初のツリーが非常に悪く、エラーをチェックしない場合、(正確でない場合ではなく)正確な回答が得られない可能性があります。

私が信じる主な理由は、各技術が持つ制御変数の数が多いためです。1つの制御変数をわずかに変更しても、異なる結果が得られます。

交差検証エラーを確認した後、モデルを改善する方法は?まあ、それはあなたのモデルに依存します。うまくいけば、何度か試してみると、最も重要な制御変数のアイデアが得られ、低いエラーを見つけるためにそれらを操作できるようになります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.