DBSCANのepsとminPtsを選択するルーチン


13

DBSCANは、いくつかの文献によると最もよく引用されるクラスタリングアルゴリズムであり、密度に基づいて任意の形状のクラスターを見つけることができます。2つのパラメーターeps(近傍半径として)とminPts(ポイントをコアポイントと見なすための最小近傍)があり、これらに大きく依存していると思います。

これらのパラメーターを選択するためのルーチンまたは一般的に使用される方法はありますか?


回答:


11

これらのパラメータを選択する方法を提案する出版物がたくさんあります。

最も注目すべきはOPTICSです。これは、イプシロンパラメーターを排除するDBSCANバリエーションです。「可能なすべてのイプシロンでDBSCANを実行する」とおおまかに見ることができる階層的な結果を生成します。

minPtsのために、私がやることをお勧めしませ自動方法に依存しているが、あなたにドメイン知識

優れたクラスタリングアルゴリズムにパラメーターがあり、必要に応じてカスタマイズできます。

見落としたパラメータは距離関数です。DBSCANで最初に行うことは、アプリケーションに適した距離関数を見つけることです。ユークリッド距離がすべてのアプリケーションに最適であることに依存しないでください!


ユーザーは距離関数を選択できますが、パラメータではないでしょう。
Mehraban 14年

1
もちろん。これは、他のカーネル化された方法のカーネル関数と同じくらいのパラメーターであり(実際、この方法でDBSCANを簡単にカーネル化できます)、私の経験では、CanberraやClarkなどの他の距離は結果大幅に改善できます
QUITがあります--Anony-Mousse 14年

クラスタリングへの距離関数の影響を過小評価していませんが、dbscanやその他すべてのクラスタリングアルゴリズムに固有ではなく、何らかの一般的なものだと思います。一方、epsおよびminPtsは明示的にdbscanパラメーターです。
Mehraban 14年

1
距離に基づいていないアルゴリズムもたくさんあります。また、minPtsがk最近傍分類などと同じであると考える場合、minPtsパラメーターについても同じことが言えます。主な違いは、距離については、「しばしば」賢明なデフォルトがあるということです。ユークリッド距離。一方、minPtsの場合、値はデータ固有です。
QUITを使用--Anony-Mousse 14年

1
OPTICS自体はパーティションを提供するのではなく、クラスターの順序を提供します。パーティションを取得するには、OPTICSペーパーで説明されているxi抽出を使用します。相違点を理解するには、各バリアントのペーパーを参照してください。
QUITがあります--Anony-Mousse
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.