架空のオンラインクラスタリングアプリケーションの例を紹介します。
時間nで、ポイント1、2、3、4が青いクラスターAに割り当てられ、ポイントb、5、6、7が赤いクラスターBに割り当てられます。
時間n + 1で、青いクラスターAに割り当てられる新しいポイントaが導入されますが、ポイントbも青いクラスターAにも割り当てられます。
最後に、ポイント1、2、3、4、a、bはAに属し、ポイント5、6、7はBに属します。私にはこれは合理的に思えます。
一見単純そうに見えるのは、実際には少しトリッキーです-タイムステップ全体で識別子を維持するためです。より境界線の例でこの点を明確にしてみましょう:
緑の点は2つの青と2つの赤の点を1つのクラスターに統合し、私は任意に青に着色することを決めました-これはすでに私の人間のヒューリスティックな考え方です!
この決定を行うコンピューターは、ルールを使用する必要があります。たとえば、ポイントがクラスターにマージされる場合、クラスターのIDは過半数によって決定されます。この場合、ドローに直面します-青(ここでは青)クラスターの青と赤の両方が有効な選択肢である可能性があります。
緑の点に近い5番目の赤い点を想像してください。次に、大部分が赤(3赤vs 2青)になるので、新しいクラスターには赤を選択するのが適切です。ただし、右端のクラスターの赤をより明確に選択することは、それらが赤であり、おそらくそのままであるはずなので、矛盾します。 。
これについて考えるのはおかしい。結局のところ、これには完璧なルールはないと思います。むしろ、安定性基準を最適化するヒューリスティックです。
これは最終的に私の質問につながります:
- この「問題」には、参照できる名前がありますか?
- これに対する「標準」ソリューションはありますか...
- ...多分そのためのRパッケージさえありますか?