一次マルコフ連鎖のクラスターの評価


10

数千の一次マルコフ連鎖のデータセットを約10個のクラスターにクラスター化しました。

これらのクラスターを評価し、クラスター内のアイテムが共有しているアイテムを見つけ、他のクラスターとどのように異なるかを知るための推奨される方法はありますか?したがって、「クラスターAのプロセスは、いったんそこに到達すると状態Yに留まる傾向がありますが、他のクラスターのプロセスには当てはまりません」のようなステートメントを作成できます。

それらのマルコフ連鎖の遷移行列は大きすぎて、単に「見て」見ることはできません。それが役立つ場合、それらは比較的まばらです。

私のアイデアは、クラスター内のすべての遷移行列を取り、それらを合計し、それを画像の強度として(0〜255のスケールで)プロットすることでした。私が試すべきもっと「プロフェッショナル」なものはありますか?


これらのプロセスは一次市場チェーンであることを知っています(そうであれば、どのようにして)。これに対する答えが肯定的であると仮定すると、構造について追加の事前情報は何ですか。そもそもなぜクラスタリングに興味があるのか​​を特定しようとしています。これが読者がより効率的にソリューションを案内するのに役立つことを知っていると思います。
枢機卿

元のデータは、私のサイトのユーザーが生成したクリックストリームです。markovプロセスを作成したので、各プロセスは1人のユーザーのクリックストリームを説明します。マルコフ連鎖がこれには不十分であると言う本や論文があることは知っていますが、私のデータには、ユーザーが要求した正確なURLは含まれず、URLが属する「アプリケーション」だけが含まれます。(私のサイトは105のいわゆる「アプリケーション」に分割された情報システムであり、ほとんどがサイトの自己完結型の部分であり、ホームページと各ページのサイドメニューからリンクされています)
user7610

サイトの使用に類似したパターンを持つユーザーのグループを明らかにしたいので、クラスタリングに興味があります。マルコフ連鎖が捉えるパターンはそのようなグループを区別するのに十分であると私は仮定しました。作成したクラスターがサイトでのユーザーの役割にどのように対応しているかを確認したところ、クラスターでは常に1つの役割からのユーザーが多く、他の役割からのユーザーは数人しかいないように見えるため、有望に見えます。それが役に立て
ば幸い

こんにちは、同じ問題が発生しています。最後に、問題をどのように解決しましたか?
nan

@nan必要ありませんでした。これは期間プロジェクトでのみ必要だったので、他のことをしました。今それを解決する必要がある場合は、最初のクラスタリングのためにen.wikipedia.org/wiki/…を調べてみます。現在、t-SNEは非常に人気があり、IMOに適しています。私が得た結果が、その場限りのアプローチで得た結果よりも有意義であることを願っています。そして、比較的新しい超クールなものを使用すると、教師を満足させるでしょう;)
user7610

回答:


1

各クラスターの定常状態の動作に関するステートメントを作成するには、固有ベクトルによって各遷移行列の定常状態の分布を計算してから、クラスターごとの箱ひげ図を比較します。最初に何らかの平滑化を適用しないと、定常状態の計算で問題が発生する可能性があります。

遷移行列をどのようにクラスタリングしていますか?それが私なら、各行に加法平滑化を適用してから、各行の中央の対数比変換を行い、行列を平坦化します。

K平均法またはバリアントを使用してクラスター化している場合は、正規化されたクラスターの中心を分析できます。または、各クラスターからいくつかの観測を選択して、それらを分析します。


0

まず、アイデアを得るために、あなたが言及するアプリケーションに対応する105 x 105の次元の行列はありますか?「stay in state Y」と言うと、それはアプリケーションYに固執するという意味ですか?

次に、「クラスターA内のプロセスは、いったんそこに到達すると状態Yのままになる傾向があります。これは他のクラスター内のプロセスには当てはまりません」などの結果は、10クラスターだけでは少し細かすぎると思います。アプリケーションドメインのクラスタリングを試しましたか?私が正しく理解していれば、ユーザーの行動に基づいて105のアプリケーションをクラスタリングできます。次に、移行ではなく単純なユーザーの存在、つまり105のアプリケーションにわたるユーザーのプロファイルを確認しましたか?ユーザープロファイル間でピアソン係数を使用できるかのようです。アプリケーションのクラスター上、またはアプリケーション自体上。これはおそらくアプリケーション間の遷移にまで拡張される可能性がありますが、現在、クラスターの数と関心のある結果のタイプの間に大きなミスマッチがあると感じています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.