高次元データセットにガウスプロセス回帰(GPR)を適用した経験があるかどうかを確認したいだけです。さまざまなスパースGPRメソッド(スパース疑似入力GPRなど)のいくつかを調べて、機能選択がパラメーター選択プロセスの一部である高次元データセットで何が機能するかを確認します。
論文/コード/またはさまざまな方法を試してみてください。
ありがとう。
高次元データセットにガウスプロセス回帰(GPR)を適用した経験があるかどうかを確認したいだけです。さまざまなスパースGPRメソッド(スパース疑似入力GPRなど)のいくつかを調べて、機能選択がパラメーター選択プロセスの一部である高次元データセットで何が機能するかを確認します。
論文/コード/またはさまざまな方法を試してみてください。
ありがとう。
回答:
ガウスプロセスモデルは、一般に高次元のデータセットで十分です(私はマイクロアレイデータなどで使用しました)。これらのキーは、ハイパーパラメーター(正規化と同様の方法でモデルの複雑さを効果的に制御する)に適切な値を選択することです。
スパースメソッドと疑似入力メソッドは、多数の特徴ではなく、多数のサンプル(私のコンピューターでは>約4000)のデータセットに適しています。共分散行列(n行n列、nはサンプル数)のコレスキー分解を実行するのに十分な強力なコンピューターがある場合は、おそらくこれらの方法は必要ありません。
あなたがMATLABユーザーなら、私はGPMLツールボックスとRasmussenとWilliamsによる本を良い出発点として強くお勧めします。
ただし、機能の選択に興味がある場合は、GPは避けます。GPでの機能選択の標準的なアプローチは、自動関連性決定カーネル(GPMLのcovSEardなど)を使用し、カーネルパラメーターを調整して周辺尤度を最大化することで機能選択を実現することです。残念ながら、これは限界尤度を過剰に適合させ、単純な球面動径基底関数(GPMLのcovSEiso)共分散を持つモデルよりも(おそらくはるかに)パフォーマンスの悪いモデルになってしまう可能性が非常に高くなります。
私の現在の研究の焦点は、現時点でのモデル選択の過剰適合にあり、詳細については、これがGPでの証拠の最大化の問題であり、カーネルモデルのハイパーパラネターの交差検証ベースの最適化の問題と同じくらい問題であることがわかりました参照この論文、及びこれを。
非線形モデルの特徴選択は非常にトリッキーです。多くの場合、線形モデルに固執し、L1正則化タイプのアプローチ(Lasso / LARS / Elastic netなど)を使用してスパース性またはランダムフォレストメソッドを実現することにより、パフォーマンスが向上します。