グラフ存在するデータがあります。頂点はの2つのクラスのいずれかに属しており、2つのクラスを区別するようにSVMをトレーニングすることに興味があります。このための一つの適切なカーネルは、拡散カーネル、あるラプラシアンの及びチューニングパラメータです。
SVMを調整するにはハイパーパラメーターを選択する必要があるため、を調整する必要があり通常、この問題には交差検証を使用しますが、から頂点を省略するとグラフ全体が変更され、場合によっては接続されているコンポーネントの数も増えるため、これは適切ではないようです。接続されているコンポーネントの数が変化すると、一部の頂点が他の頂点から到達できなくなり、当初とは非常に異なるデータセットに直面します。つまり、削除された頂点が欠落しているだけでなく、その頂点に隣接していたグラフ内の他のすべての頂点に関する情報も欠落しています。
交差検証の基本的な概念は、新しいデータが表示されたときのモデルのパフォーマンスを概算したいというものです。標準的な問題では、テスト用のデータの一部を省略しても、残りのトレーニングデータの値は変わりません。ただし、グラフデータの場合、モデルがCV設定で「新しい」データを表示することの意味が明確ではありません。頂点またはエッジを省略すると、データが完全に変更される可能性があります。たとえば、スターグラフであるグラフを想像してください。1つの頂点には頂点から個の頂点があり、他のすべての頂点には1個のエッジがあります。中央の頂点を省略してトレーニングデータグラフが完全に切断され、カーネル行列は対角になります!しかし、もちろん、提供されるこのトレーニングデータでモデルをトレーニングすることは可能です。あまり明確でないのは、結果のモデルのサンプル外のパフォーマンスをテストすることの意味です。のカーネルマトリックスを再計算し、それを予測のために提供しますか?
または、代わりに、のカーネルマトリックス全体を計算し、必要に応じて行と列を省略してSVMの推定に使用されるカーネルマトリックスを生成することから始めますか?中央ノードを含めることは、すべての頂点が他のすべての頂点から到達可能であり、カーネルマトリックスが密であることを意味するため、これには独自の概念上の問題があります。この包含は、フォールド全体に情報漏えいがあり、交差検証出力にバイアスをかけることを意味しますか?一方で、省略された中央ノードはグラフを接続するため、省略された中央ノードに関するデータはまだ存在しています。一方、ラベルについては何も知りません。 このようにCVを実行することで、サンプルからの推定値がかなり偏りのないものになっていることを確認できます。
このタイプの問題のハイパーパラメータをどのように選択しますか?CVは不完全ですが許容できますか、それとも特別な方法が必要ですか?私のコンテキストではハイパーパラメータの調整はまったく可能ですか?