名義属性を持つ順次データの分析のためのデータマイニングアプローチ
経験豊富なデータマイナーへの質問: このシナリオを考えると: N個のショッピングカートがあります 各ショッピングカートには、無限に大きいセットからの任意の数のMアイテムが入っています(私が持っている現在のデータ量では、その任意の数は約1500に達する可能性があります)。 各カートが満たされる順序は重要です 買い物客の地理位置情報などの他の属性もありますが、アルゴリズムをより簡単にするために、これらの属性を破棄することができます(現在は除外しています)。 する必要がある: 特定の時点で、各カートに注文されたアイテムのセットのみが与えられている場合、クラスラベルの事前の知識がなくても「類似した」カートを識別します 一定量のデータが収集され、データが処理されてラベルが割り当てられたら、将来の目に見えないデータをすばやく処理できる分類子を作成します 最初のアプローチ: これまでのところ、私のアプローチは最初の点に焦点を当ててきました。私の方法では、k平均クラスタリングを使用し、カート間のハミング距離を計算して生成された距離行列を使用して、データの順次的な性質を処理します。このように、[りんご、バナナ、梨]は[梨、りんご、バナナ]とは異なりますが、[りんご、バナナ、梨]は[りんご、バナナ、カモシカ]とそれほど異なりません。kの適切な値は、シルエット係数の調査を通じて決定されます。これから生成されたクラスターは理にかなっているように見えますが、私のデータセットがスケーリングするため、私のメソッドの実行時間は明らかに禁止されます。 質問: 誰かがこの問題について初心者のデータマイナーに何か提案をすることはありますか? 詳細情報を含む編集: n-gram機能を使用してペアで比較することを検討する提案を見つけました。これについて私が懸念しているのは順序です。n-gramモデルが使用されている場合、シーケンスの順序は維持されますか?また、この方法ではパフォーマンスの問題が発生する可能性が高くなります。