弾性/尾根/なげなわ分析、それでは何ですか?


19

予測子の収縮/選択のためのエラスティックネット手順に本当に興味を持っています。非常に強力なようです。

しかし、科学的な観点からは、係数を取得したらどうすればよいかわかりません。どんな質問に答えていますか?これらはその結果に最も影響を与える変数であり、これらは検証中に最良の分散/バイアス比を与える係数ですか?

これはもちろん、古典的なp値/信頼区間アプローチと比較して非常に記述的/予測的なアプローチです。推論推定は現在Tibshirani&Co.によって研究されていますが、まだ実験的です。

一部の人々は、エラスティックネットによって選択された変数を使用して古典的な推論分析を実行していますが、これにより、手法によってもたらされる分散の制限がなくなります。

もう1つの問題は、エラスティックネットのラムダおよびアルファパラメーターが相互検証によって選択されるため、ランダムな変動の影響を受けることです。したがって、cv.glmnet()を実行するたびに、常に異なる係数を持つ予測子のわずかに異なるサブセットを選択します。

正しいラムダとアルファをランダム変数として考慮してこれを解決し、クロス検証ステップをn回再実行して、これらのパラメータの分布を取得することについて考えました。このように、すべての予測子に対して発生回数があり、すべての係数に対して結果の分布があります。これにより、範囲統計(係数のsdなど)でより一般化可能な結果が得られるはずです。ラムダとアルファがこのように選んだ分布が漸近的に近似するかどうかを確認することも興味深いでしょう。完全に理解していない)。

最後に私の質問は次のとおりです。アルファとラムダに基づいた相互検証を使用してエラスティックネットから予測子と係数を取得したら、これらの結果をどのように表示する必要がありますか。それらについてどのように議論すべきですか?何を学びましたか?私たちはどの仮説/一般化を確信していますか?


適切に答えるには、これが過度に広範で不明確だと思います。場合によっては、ステートメントが不明確であることがわかります(例:「しかし、それによってテクニックによってもたらされる分散の制限がなくなります。」)および他のケースでは誤解されます(例:実行するたびに(例) cv.glmnet()常に異なる係数を持つわずかに異なる予測子のサブセットを選択します "-それは毎回ではなく、CVが正しく行わ
れれば

エラスティックネットの動機は、それを変数クラスタリング(zouのセクション2.3、hastieエラスティックネットペーパー)に関連付けました。これについては、ncbi.nlm.nih .gov / pmc / articles / PMC4011669
user795305

回答:


8

これらの方法-なげなわとエラスティックネット-は、特徴の選択と予測の両方の問題から生まれました。説明が見つかると思うのは、これらの2つのレンズを通してです。

Matthew Gunnは、これらの2つの目標は明確であり、多くの場合異なる人々によって取り上げられると、返信でうまく説明しています。しかし、幸いなことに、私たちが興味を持っている方法は両方の分野でうまく機能します。

機能の選択

まず、機能の選択について説明しましょう。まず、投げ縄の観点からエラスティックネットを動機付ける必要があります。つまり、HastieとZouを引用する、「ペアワイズ相関が非常に高い変数のグループがある場合、投げ縄はグループから1つの変数のみを選択する傾向があり、どちらが選択されるかを気にしません。」これは、たとえば、投げ縄を使用して真のサポートの要素を見つける可能性が低いことを意味するため、問題です。(この論文は、これはLARS論文で証明されていると述べていますが、これはまだ読んでいません。)相関がある場合のサポート回復の困難さは、Wainwrightによっても指摘されています。0.5真のサポートとそれを補完するものとの間に高い相関がある場合は。

現在、エラスティックネットのl2ペナルティは、損失とl1ペナルティだけで区別できないものとして扱われる係数を持つフィーチャが、推定係数が等しいことを推奨しています。我々は緩くその着目し、これを見ることができますは満たす 。このため、エラスティックネットはそれを作成するため、真にサポートされている係数推定値を「誤って」消失させる可能性が低くなります。つまり、真のサポートは、推定サポートに含まれる可能性が高くなります。それは良い!それはより多くの誤った発見があることを意味しますが、それはほとんどの人が喜んで支払う価格です。| a | = | b |(a,b)=argmina,b:c=|a|+|b|(a)2+(b)2|a|=|b|

余談ですが、相関性の高い特徴が非常に類似した係数推定値を持つ傾向があるという事実は、同様に応答に影響する推定サポート内の特徴のグループ化を検出できることを指摘する価値があります。

予測

次に、予測に進みます。Matthew Gunnが指摘しているように、相互検証を通じてチューニングパラメーターを選択すると、予測誤差が最小のモデルを選択するという目的が生まれます。投げ縄で選択されたモデルはすべて(を取ることで)エラスティックネットで選択できるため、弾性ネットは投げ縄よりも優れた予測モデルを見つけることができるという意味があります。α=1

Lederer、Yu、およびGaynanovaは、特徴に関する仮定を一切立てずに、投げ縄とエラスティックネットの両方が同じ量に制限されたl2予測エラーを持つことができることを示しています。それらの境界がきついことは必ずしも真実ではありませんが、オラクルの不等式は、推定値の予測パフォーマンスを定量化する統計文献の標準的な方法であるように見えるため、興味深いことに注意する必要があります。また、Lederer (1)(2)には、相関する特徴がある場合のなげなわ予測に関するいくつかの論文があります。

概要

要約すると、関心のある問題は、推定されたサポートと予測内にある真のサポートです。サポートの回復については、真のサポートとそれを補完するものとの相関が低いという仮定の下で、投げ縄がモデルに含まれる正しい機能を選択するという厳密に証明された保証があります(Wainwrightを通じて)。ただし、相関関係がある場合は、エラスティックネットにフォールバックして、真のサポートで選択するすべてのフィーチャを選択する可能性が高くなります。(ここでチューニングパラメーターを慎重に選択する必要があることに注意してください。)また、クロス検証を通じてチューニングパラメーターを選択するときの予測のために、特に相関がある場合、エラスティックネットは投げ縄よりも優れたパフォーマンスを発揮する必要があることを直感的に理解できます。

予測と何らかの形式を別にして、何を学びましたか?真のサポートについて学びました。

信頼区間

投げ縄の有効な推論に関して、過去2年間で多くの変化があったことを指摘する価値があります。特に、Lee、Sun、Sun、Taylorの研究は、選択されている特定のモデルを条件とする投げ縄の係数の正確な推論を提供します。(真の係数のなげなわの推論の結果は、OPの投稿の時点であり、それらはリンクされた論文で十分に要約されています。)


正則化された共変量の推定値は、おそらく研究を繰り返すことで得られる推定値に似ていると仮定するのは正しいでしょうか?つまり、正則化はサンプル外予測エラーの最小化に役立つため、サンプル内推定とサンプル外推定の差を最小化するのに役立つ可能性がありますか?
バカバーグ

1
@Bakaburg、ええ、それは言う意味です。正則化により、分散の少ない推定量が作成されます。
user795305

9

クロスバリデーションを使用して正則化パラメーターを選択するエラスティック、リッジ、またはなげなわで行うことは、予測最適化するために何らかの線形形式を適合させることです。これらの特定の正則化パラメーターが必要な理由 新しいデータの予測に最適であるためです。(RidgeまたはLassoで行われているように)バイアスを導入して、係数の推定値をゼロに向かって縮小すると、過剰適合を減らし、分散を縮小できます。この考え方は、新しいデータの予測を最適化するために、ペナルティパラメータが適切なバランスを取るようにすることです。

データ生成プロセスは次のとおりです。

yi=f(xi,β)+ϵi

してみましょうパラメータの見積りも、とlet観測のための私達の予想も β Y jはjをβ^βy^jj

結果をどのように提示する必要がありますか?基礎となる研究の質問が何であるかによります!一歩下がって、答えようとしている質問について深く考えてください。あなたの聴衆は何を気にしますか?あなたは何をしようとしているのですか?

  • 予測?
  • 係数を推定しますか?
  • 変数選択?

次の2種類の研究質問を区別することが重要です。

  1. 主に予測を重視する質問、つまり質問y^j
  2. 主にパラメータ推定関心がある質問。β^

既製の機械学習技術は、前者の予測問題に対して非常に強力です。認識しているように見えますが、標準的な既製の機械学習技術は、、パラメータ推定の問題に対して非常に問題があるかもしれません。 βy^β^

  • 高次元の設定では、多くの異なるパラメーター化により同じ予測が得られます。パラメーター数が観測に比べて大きい場合、個々のパラメーターをうまく推定できない可能性があります。 k個のn個y^kn
  • 異なる分割でトレーニングされたアルゴリズムでは、パラメーター推定値が大幅に異なる場合があります。
  • 機械学習の重点は予測にあり、一貫して因果効果を推定することではありません。(これは、通常、主な問題が一貫して因果効果を推定することである計量経済学と対照的です)。何らかの機能形態を推定する予測は、因果関係の推定とは異なります。警察レベルは犯罪レベルの良い予測因子である可能性があり、これは警察が犯罪を引き起こすことを意味しません。

また、ご存じのとおり、一部の機械学習パラメーター化が機能する理由の解釈には問題がある場合があります。視聴者は予測ブラックボックスに満足していますか?または、あなたの質問の中心に予測がどのように機能しますか?

なげなわとリッジ:それらを使用する古典的な理由

  • エラスティックネットは、古典的な機械学習、予測問題、主な関心事がである状況に使用できます。ある意味では、正則化により、より多くの予測変数を含めることができますが、それでも制御下で過剰適合を維持できます。y^

  • 正規化を使用して、過剰適合を防ぐことができます。例えば。多項式曲線フィッティングのコンテキストでのリッジ回帰は非常にうまく機能します。

  • @Benjaminが答えで指摘しているように、Lassoは変数の選択にも使用できます。特定の規則性条件下で、Lassoは一貫して適切なモデルを選択します。無関係な係数はゼロに設定されます。

とラッソとリッジのペナルティは、それぞれ、係数がゼロに向かって推定バイアス。バイアスが大きい場合、係数の推定値を解釈しようとすると、これは深刻な問題になる可能性があります。また、標準エラーの推定値を取得するには、ブートストラップなどの操作を行う必要があります。単純な閉じた形式のソリューションはありません(私は知っています)。Ridge、なげなわ、およびエラスティックネットは、通常のOLS回帰と類似していますが、正則化と変数選択により推論がまったく異なります...L 2L1L2

繰り返しになりますが、リッジ回帰、なげなわ、またはエラスティックネットを実行した結果を、理解しようとしている内容のコンテキストなしに解釈することは非常に難しいということです。


Sendhil Mullainathan教授は、2017年1月のAFAミーティングで機械学習に関する講演を行い、この記事の一部を動機付けました。


3
私の意見では、この種の考え方には欠陥があります。それは、根底にある現象が人間に理解されるほど単純であるという仮定に基づいています。高次元モデルは、ほとんどの場合、人間が理解するには複雑すぎますが、大規模な人工知能には非常に適しています。現実には、理解できるかどうかにかかわらず、最良の予測因子は現象の最良の解釈です。
カグダスオズゲンク

2
@CagdasOzgencこれは、いくつかの機能が恐ろしく複雑で、人間に説明するのは難しいが、機械(チェスボードの評価など)で理解可能で学習できるという有効なポイントだと思います。これらの状況では、マシンが学習したことを解釈しようとさえせずに、手を放した方が良い場合があります。一方で、因果効果、多数の交絡因子の存在下で推定しようとしている平均的な有効性、選択効果などがある薬物試験のような状況があります。これらはある意味で異なる問題と必要性です。さまざまなテクニック。
マシューガン

1
@Benjamin根本的な問題は、OPが最も直接求めているもの、つまり、エラスティックネットからゼロ係数へのバイアスの理解可能な解釈が存在しない可能性があることです。10,000の予測変数と5,000の観測値があるとします。共同で、あなたの係数は予測で優れた仕事をするかもしれませんが、個々に、それぞれの係数はジャンクが不十分に推定されるかもしれません。一歩下がって、根本的な研究の質問は何か尋ねる価値があると思いますか?目的は何ですか?それは予測見つけるか、いくつかの係数を推定しますか?それとも他の何か?y^
マシューガン
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.