最近、機械学習の領域に入りました。現在取り組んでいるプロジェクトでは、ユーザーがWebサイトのWebページにアクセスした順序に基づいてクラスター化する必要があります。次の形式のデータがあります。
['user_id', 1, 2, 4, 6, 3, 7, 3, 2, 4...]
各番号は、ユーザーがアクセスしたカテゴリ/ページです。さらに、各ユーザーのデータの長さは同じではありません。つまり、一部のユーザーは他のページよりも多くのページにアクセスします。
これは非常にあいまいで、類似性を明確に定義していることに気づきました。私はこの研究論文の例を試してみましたが、正直に言うと、多くのことが頭に浮かびました。
この問題への取り組み方について支援が必要であり、新しいアイデアや提案を受け入れています。