グラフカーネルSVMハイパーパラメーターを調整する方法は何ですか?


10

グラフ存在するデータがあります。頂点はの2つのクラスのいずれかに属しており、2つのクラスを区別するようにSVMをトレーニングすることに興味があります。このための一つの適切なカーネルは、拡散カーネル、あるラプラシアンの及びチューニングパラメータです。G=VEy{11}K=expβLLGβ

SVMを調整するにはハイパーパラメーターを選択する必要があるため、を調整する必要があり通常、この問題には交差検証を使用しますが、から頂点を省略するとグラフ全体が変更され、場合によっては接続されているコンポーネントの数も増えるため、これは適切ではないようです。接続されているコンポーネントの数が変化すると、一部の頂点が他の頂点から到達できなくなり、当初とは非常に異なるデータセットに直面します。つまり、削除された頂点が欠落しているだけでなく、その頂点に隣接していたグラフ内の他のすべての頂点に関する情報も欠落しています。θ=βCGj

交差検証の基本的な概念は、新しいデータが表示されたときのモデルのパフォーマンスを概算したいというものです。標準的な問題では、テスト用のデータの一部を省略しても、残りのトレーニングデータの値は変わりません。ただし、グラフデータの場合、モデルがCV設定で「新しい」データを表示することの意味が明確ではありません。頂点またはエッジを省略すると、データが完全に変更される可能性があります。たとえば、スターグラフであるグラフを想像してください。1つの頂点には頂点から個の頂点があり、他のすべての頂点には1個のエッジがあります。中央の頂点を省略してトレーニングデータS=VSESkkkSグラフが完全に切断され、カーネル行列は対角になります!しかし、もちろん、提供されるこのトレーニングデータでモデルをトレーニングすることは可能です。あまり明確でないのは、結果のモデルのサンプル外のパフォーマンスをテストすることの意味です。のカーネルマトリックスを再計算し、それを予測のために提供しますか?SS

または、代わりに、のカーネルマトリックス全体を計算し、必要に応じて行と列を省略してSVMの推定に使用されるカーネルマトリックスを生成することから始めますか?中央ノードを含めることは、すべての頂点が他のすべての頂点から到達可能であり、カーネルマトリックスが密であることを意味するため、これには独自の概念上の問題があります。この包含は、フォールド全体に情報漏えいがあり、交差検証出力にバイアスをかけることを意味しますか?一方で、省略された中央ノードはグラフを接続するため、省略された中央ノードに関するデータはまだ存在しています。一方、ラベルについては何も知りません。SS y このようにCVを実行することで、サンプルからの推定値がかなり偏りのないものになっていることを確認できます。

このタイプの問題のハイパーパラメータをどのように選択しますか?CVは不完全ですが許容できますか、それとも特別な方法が必要ですか?私のコンテキストではハイパーパラメータの調整はまったく可能ですか?


スペクトル法のサンプル外拡張を探します。私は論文の画像分類にいくつかの手法を適用しました(今振り返ってみると、別の方法で行っていたでしょう)。結果は興味深いものでしたが、モデル自体は非常に壊れやすく、調整が容易ではありませんでした。
Vladislavs Dovgalecs

@xeonこの文献をどこから見始めるかについての推奨事項はありますか?
Sycoraxは、モニカを2015

回答:


3

免責事項:私はグラフカーネルにあまり詳しくないので、この回答は誤った仮定に基づいている可能性があります。カーネルマトリックスの計算中に頂点を省略するのは最適ではないことに同意します。そうは言っても、交差検証が必ずしも問題があるかどうかはわかりません。あなたの学習コンテキストは、変換または誘導ですか?

β

βCβC


マルク、ご清聴ありがとうございました。私の問題は帰納的です。私の本能は、あなたが正しいこと、そしてすべてのデータの完全なカーネル行列を計算し、CV化されたカーネルを生成するために必要に応じて行と列を省略することです。この影響への言及に気づいたことがありますか?
Sycoraxは、モニカを2015

すぐにではありませんが、私が尋ねることができる同等の問題(カーネルスペクトルクラスタリング)に取り組んでいる同僚がいます。多分彼らは参照やより良いアイデアを持っています。詳細がわかり次第更新します。
Marc Claesen、2015
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.