名義属性を持つ順次データの分析のためのデータマイニングアプローチ

経験豊富なデータマイナーへの質問：

このシナリオを考えると：

N個のショッピングカートがあります
各ショッピングカートには、無限に大きいセットからの任意の数のMアイテムが入っています（私が持っている現在のデータ量では、その任意の数は約1500に達する可能性があります）。
各カートが満たされる順序は重要です
買い物客の地理位置情報などの他の属性もありますが、アルゴリズムをより簡単にするために、これらの属性を破棄することができます（現在は除外しています）。

する必要がある：

特定の時点で、各カートに注文されたアイテムのセットのみが与えられている場合、クラスラベルの事前の知識がなくても「類似した」カートを識別します
一定量のデータが収集され、データが処理されてラベルが割り当てられたら、将来の目に見えないデータをすばやく処理できる分類子を作成します

最初のアプローチ：

これまでのところ、私のアプローチは最初の点に焦点を当ててきました。私の方法では、k平均クラスタリングを使用し、カート間のハミング距離を計算して生成された距離行列を使用して、データの順次的な性質を処理します。このように、[りんご、バナナ、梨]は[梨、りんご、バナナ]とは異なりますが、[りんご、バナナ、梨]は[りんご、バナナ、カモシカ]とそれほど異なりません。kの適切な値は、シルエット係数の調査を通じて決定されます。これから生成されたクラスターは理にかなっているように見えますが、私のデータセットがスケーリングするため、私のメソッドの実行時間は明らかに禁止されます。

質問：

誰かがこの問題について初心者のデータマイナーに何か提案をすることはありますか？

詳細情報を含む編集：

n-gram機能を使用してペアで比較することを検討する提案を見つけました。これについて私が懸念しているのは順序です。n-gramモデルが使用されている場合、シーケンスの順序は維持されますか？また、この方法ではパフォーマンスの問題が発生する可能性が高くなります。

— ドン
ソース

興味深い質問ですが、おそらくstats.stackexchange.comに

— Matt Parker

私は最初にこれをstats.stackexchange.comに送信し、そこから表示しています...これは他の場所に表示されていますか？

— 2011

ああ、長い週でした。私は一連のStackOverflowとCrossValidatedの質問を隣接するタブで定期的に開いていますが、これは一連のStackOverflow質問の最後にありました。次に、注意を喚起したとき、それがstats.stackexchangeに移動することを提案するオプションを与えました-それは実際にはMETA.stats.stackexchangeでした。もう寝たほうがいい。

— Matt Parker、

初心者のデータマイナーのようには聞こえません。

— rolando2

@ rolando2：それはすべて相対的だと思いますね。私は唯一の主題の表面をこすり落としてきたように私はまだ...感じる

— ドン

私も初心者のデータマイナーですが、探索的データ分析は常に優れた最初のステップであることを提案できますか？カートにアイテムが表示される時期を予測するのに役立つ何らかの「優先度の値」をアイテムに割り当てることができるかどうかを確認します。このような結果により、より単純なモデルを使用できる場合があります。アイテムXを所有するすべてのカートの（カート内の＃order /カート内のアイテムの数）の線形回帰のような単純なもので、これが可能かどうかがわかります。特定の割合のアイテムが常に早くまたは遅く現れ、一部は完全にランダムであるように見えると仮定します。これは、後のモデル構築のガイドになります。

— charles.y.zheng
ソース