順次パターンの特定

8

マルウェアのwin-api呼び出しの長いリストであるシーケンスデータを使用しています。「マルウェアの動作」を特定する問題を、連続するパターンを見つけることの1つにキャストしようとしています。各API呼び出しを単一のアイテムのItemsetとして扱います。さまざまな可能な項目（API呼び出し）の数は非常に多くなります。

ここで、SPADEアルゴリズム（Zaki、SPADE：頻繁なシーケンスをマイニングするための効率的なアルゴリズム、機械学習、42、31〜60、2001も参照）を適用すると、メモリの問題が発生します。大きな語彙の多いシーケンスから順次パターンを見つけるためのより良い代替方法はありますか？

sequence-analysis sequential-pattern-mining

— チェット
ソース

マルコフチェーンモンテカルロアプローチを使用できますか？

— Zach、

2

データを、スライディングウィンドウで計算された統計と累積統計の両方とともに、シーケンスが重要な特徴空間にマッピングし、それをディシジョンツリーで使用できます。

決定木はシーケンスと非順次データの両方を処理できます。これにより、データの複雑さが大幅に軽減される場合があります。

— イテレータ
ソース

1

他の順次パターンマイニングアルゴリズムを試すこともできます。

たとえば、オープンソースのSPMF JavaデータマイニングライブラリはSPADEだけでなく、PrefixSpan、SPAM、CM-SPAM、CM-SPADE、GSPなども提供しています（ちなみに、私はプロジェクトの創設者です）。私の知る限り、CM-SPADEは通常SPADEよりも高速です。メモリの面では、おそらくそのSPAMはより少ないメモリを使用します。

— フィル
ソース