高次元データセットのガウスプロセス回帰


10

高次元データセットにガウスプロセス回帰(GPR)を適用した経験があるかどうかを確認したいだけです。さまざまなスパースGPRメソッド(スパース疑似入力GPRなど)のいくつかを調べて、機能選択がパラメーター選択プロセスの一部である高次元データセットで何が機能するかを確認します。

論文/コード/またはさまざまな方法を試してみてください。

ありがとう。


2
述べたように、この質問はかなりあいまいです。自己完結型、具体的、そしてやる気のある質問は、ここで最も注意と最良の回答を受ける傾向があります。(たとえば、解決しようとしている特定の問題がある場合は、読者があなたがしようとしていることを理解できるように十分な詳細を提供することを検討してください。)
枢機卿'11

回答:


13

ガウスプロセスモデルは、一般に高次元のデータセットで十分です(私はマイクロアレイデータなどで使用しました)。これらのキーは、ハイパーパラメーター(正規化と同様の方法でモデルの複雑さを効果的に制御する)に適切な値を選択することです。

スパースメソッドと疑似入力メソッドは、多数の特徴ではなく、多数のサンプル(私のコンピューターでは>約4000)のデータセットに適しています。共分散行列(n行n列、nはサンプル数)のコレスキー分解を実行するのに十分な強力なコンピューターがある場合は、おそらくこれらの方法は必要ありません。

あなたがMATLABユーザーなら、私はGPMLツールボックスとRasmussenとWilliamsによる本を良い出発点として強くお勧めします。

ただし、機能の選択に興味がある場合は、GPは避けます。GPでの機能選択の標準的なアプローチは、自動関連性決定カーネル(GPMLのcovSEardなど)を使用し、カーネルパラメーターを調整して周辺尤度を最大化することで機能選択を実現することです。残念ながら、これは限界尤度を過剰に適合させ、単純な球面動径基底関数(GPMLのcovSEiso)共分散を持つモデルよりも(おそらくはるかに)パフォーマンスの悪いモデルになってしまう可能性が非常に高くなります。

私の現在の研究の焦点は、現時点でのモデル選択の過剰適合にあり、詳細については、これがGPでの証拠の最大化の問題であり、カーネルモデルのハイパーパラネターの交差検証ベースの最適化の問題と同じくらい問題であることがわかりました参照この論文、及びこれを

非線形モデルの特徴選択は非常にトリッキーです。多くの場合、線形モデルに固執し、L1正則化タイプのアプローチ(Lasso / LARS / Elastic netなど)を使用してスパース性またはランダムフォレストメソッドを実現することにより、パフォーマンスが向上します。


ディクランに感謝します。正規化された線形モデルについて、Rでglmnetを調べてみました。残念ながら、私の予測はすべて同じになります(私は私のトレーニングセットの平均だと思います)。線形モデルは、データから信号を引き出すのに苦労しているようです。そのため、多くの機能/潜在的な機能の相互作用を処理できる非線形モデルを探していました。私はそれが多くのことを尋ねていると確信しています。その前に何か提案はありますか?P >> Nの問題はありません。150の機能、1000の例を使用。
tomas

おいディクラン。それは、申し訳ありませんが私のコメントでかなり漠然とした質問でした。ボードにもっと具体的な質問をしました。ご協力ありがとうございます。stats.stackexchange.com/questions/30411/...
TOMAS

問題ありません。多くの場合、質問の内容を理解することは、回答するよりも難しいです。私は他の質問を探します。
Dikran Marsupial 2012

この回答をありがとう。高次元の特徴であるがそれほど大きなデータセット(n〜10k d〜1k)ではない場合、ARDを使用して計算を高速化できますか?GPMLツールボックスを使用しています。共分散行列を自動的に「スパース化」して、関連する機能に焦点を当てることができますか?
エミール

1
" r.csail.mit.edu/papers/v8/cawley07a.html "リンクが機能していません...これですか?jmlr.org/papers/v8/cawley07a.html。おそらくリンクだけでなく完全な引用を追加することは有益でしょう:-)
好奇心が強い

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.