2
属性を使用してユーザープロファイルを分類/クラスター化する
Webサイトから製品を購入するユーザーのデータセットがあります。 私が持っている属性は、ユーザーID、ユーザーの地域(状態)、製品のカテゴリーID、製品のキーワードID、WebサイトのキーワードID、および製品の消費額です。 目標は、製品とWebサイトの情報を使用して、「男性の若いゲーマー」や「家にいる」など、ユーザーが誰であるかを特定することです。 以下のサンプル画像を添付しました。 製品にはすべて1940の一意のカテゴリと13845の一意のキーワードがあります。Webサイトには、13063個の一意のキーワードがあります。それは毎日のログデータなので、データセット全体が巨大です。 これらは監視されていないため、クラスタリングを考えていますが、それらのIDは順序付けられた番号であり、数値の意味はありません。その場合、アルゴリズムの適用方法がわかりません。私も分類を考えています。購入した製品の販売額に基づいてクラスの列を追加した場合。クラスタリングがより好ましいと思います。キーワードidの次元は10000を超える可能性があるため、この場合にどのアルゴリズムを使用する必要があるかわかりません(各製品には多くのキーワードがあるため、Webサイトも同様です)。このプロジェクトにはSparkを使用する必要があります。 誰かがいくつかのアイデアや提案を手伝ってくれますか? どうもありがとうございます!