クラスターのクリックストリームデータ


8

最近、機械学習の領域に入りました。現在取り組んでいるプロジェクトでは、ユーザーがWebサイトのWebページにアクセスした順序に基づいてクラスター化する必要があります。次の形式のデータがあります。

['user_id', 1, 2, 4, 6, 3, 7, 3, 2, 4...]

各番号は、ユーザーがアクセスしたカテゴリ/ページです。さらに、各ユーザーのデータの長さは同じではありません。つまり、一部のユーザーは他のページよりも多くのページにアクセスします。

これは非常にあいまいで、類似性を明確に定義していることに気づきました。私はこの研究論文の例を試してみましたが、正直に言うと、多くのことが頭に浮かびました。

この問題への取り組み方について支援が必要であり、新しいアイデアや提案を受け入れています。

回答:


3

これは、多くの実用的なアプリケーションで良い質問です。

データはシーケンシャルであるため、シーケンスのペア間の類似性測定が必要です。Levensthein距離は、非常に直感的で非常に明確に定義されているため、お勧めします。逐次データのより多くのメジャーの概要を含むこの素晴らしい学士論文も参照してください。

最後に、シーケンスのすべてのペア間の距離がある場合、距離行列を入力として取る任意のクラスタリングアルゴリズムを使用できます(たとえば、任意の階層アルゴリズム)。


2

R言語のパッケージclickstreamまたはclickclustを使用できます。それはあなたが探しているものを正確に実行します。


2
これは、回答よりもコメントとして適しています。
Silverfish
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.