継続的なオンラインクラスター識別のソリューション?


11

架空のオンラインクラスタリングアプリケーションの例を紹介します。

ここに画像の説明を入力してください

時間nで、ポイント1、2、3、4が青いクラスターAに割り当てられ、ポイントb、5、6、7が赤いクラスターBに割り当てられます。

時間n + 1で、青いクラスターAに割り当てられる新しいポイントaが導入されますが、ポイントbも青いクラスターAにも割り当てられます。

最後に、ポイント1、2、3、4、a、bはAに属し、ポイント5、6、7はBに属します。私にはこれは合理的に思えます。

一見単純そうに見えるのは、実際には少しトリッキーです-タイムステップ全体で識別子を維持するためです。より境界線の例でこの点を明確にしてみましょう:

ここに画像の説明を入力してください

緑の点は2つの青と2つの赤の点を1つのクラスターに統合し、私は任意に青に着色することを決めました-これはすでに私の人間のヒューリスティックな考え方です!

この決定を行うコンピューターは、ルールを使用する必要があります。たとえば、ポイントがクラスターにマージされる場合、クラスターのIDは過半数によって決定されます。この場合、ドローに直面します-青(ここでは青)クラスターの青と赤の両方が有効な選択肢である可能性があります。

緑の点に近い5番目の赤い点を想像してください。次に、大部分が赤(3赤vs 2青)になるので、新しいクラスターには赤を選択するのが適切です。ただし、右端のクラスターの赤をより明確に選択することは、それらが赤であり、おそらくそのままであるはずなので、矛盾します。 。

これについて考えるのはおかしい。結局のところ、これには完璧なルールはないと思います。むしろ、安定性基準を最適化するヒューリスティックです。

これは最終的に私の質問につながります:

  1. この「問題」には、参照できる名前がありますか?
  2. これに対する「標準」ソリューションはありますか...
  3. ...多分そのためのRパッケージさえありますか?

反復クラスタリングにおけるクラスターIDの合理的な継承



各タイムステップでクラスターのIDをできるだけ維持しようとしている問題はありますか?N + 1のクラスターとN + 1のクラスターの間に何らかの関係があるため、N + 1でクラスターがどのように変化したかを説明できますか?そしてトリッキーなビットは、クラスターが分割されてマージされるとどうなるのでしょうか?
Spacedman 2014

@Spacedman:BINGO :) joyofdata.de/blog/…–
ラファエル

回答:


1

安定性-塑性ジレンマ、学習率、および忘却アルゴリズム:

まず、これは本当に素晴らしい質問であり、MLアルゴリズムの理解を本当に向上させる思考を刺激するものです。

  1. この「問題」には、参照できる名前がありますか?

これは一般に「安定性」と呼ばれます。面白いのは、安定性が実際には通常のクラスタリング、つまりオンラインではない場合の有用な概念であることです。アルゴリズムの「安定性」は、適切な数のクラスターが選択されているかどうかの選択基準としてしばしば選択されます。具体的には、説明したオンラインクラスタリングの安定性の問題は、と呼ばれstability-plasticity dilemmaます。

  1. これに対する「標準」ソリューションはありますか...

まず、全体像の答えは、多くのオンラインクラスタリングアルゴリズムは、初期データの大規模なコホートで十分にトレーニングされている場合、驚くほど安定しているということです。ただし、アルゴリズムが新しいデータに反応できるようにしながら、ポイントのクラスターIDを本当に特定したい場合は、まだ問題があります。あなたが指摘するトリッキーさは、Ethem Alpaydinによる機械学習の概要で簡単に説明されています。上のページ319彼は確率的勾配降下法のアプリケーションを介してオンラインk平均アルゴリズムを導出したが、と述べてstability-plasticity dilemma学習率の値を選択する際に発生します。学習率が小さいと安定性が得られますが、システムは適応性を失いますが、学習率が大きいと適応性は得られますが、クラスターの安定性は失われます。

最善の方法は、確率的勾配降下アルゴリズムを制御できるオンラインクラスタリングの実装を選択し、学習率を選択することです。これにより、安定した適応性を最大限に高め、適切な相互検証手順を使用できるようになります。

私が採用しているのを見た別の方法は、ある種の忘却アルゴリズムです。たとえば、データストリームが成熟するにつれて古いポイントを忘れます。これにより、速い時間スケールでかなり安定したシステムが可能になり、遅い時間スケールでの進化が可能になります。 Adaptive Resonance Theoryを解決しようとするために作成されましたstability-plasticity dilemmaこの記事は興味深いかもしれません。

私はRに精通しているのでアルゴリズムを提案するmini-batch k-meansことはできませんが、確率的勾配降下アルゴリズムで学習率を制御できるアルゴリズムを探すことをお勧めします。

これがお役に立てば幸いです!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.