グラフベースのクラスタリングで、類似性メトリックとして2点間の距離ではなく、ガウスカーネルを使用することが望ましいのはなぜですか?
グラフベースのクラスタリングで、類似性メトリックとして2点間の距離ではなく、ガウスカーネルを使用することが望ましいのはなぜですか?
回答:
正確にしましょう。「距離」はデータサイエンスで多くの意味を持っています。ユークリッド距離についてお話していると思います。
ガウスカーネルは、ユークリッド距離の非線形関数です。
カーネル関数は、距離とともにゼロと1の間の範囲で減少します。ユークリッド距離では、値は距離とともに増加します。したがって、カーネル関数は、観測値の重み付けに役立つメトリックです。
ゼロと1の間にあるという事実は良い特性ですが、ユークリッド距離の絶対距離(それは何でもかまいません)は、モデル化を不安定にし、困難にする可能性があります。
ユークリッド距離(負の符号なし)は類似性の尺度ではなく、距離関数です。ガウスカーネルは類似性の尺度です。
ガウスカーネルは、ユークリッド距離の正規化関数のように考えることができます。