マルウェアのwin-api呼び出しの長いリストであるシーケンスデータを使用しています。「マルウェアの動作」を特定する問題を、連続するパターンを見つけることの1つにキャストしようとしています。各API呼び出しを単一のアイテムのItemsetとして扱います。さまざまな可能な項目(API呼び出し)の数は非常に多くなります。
ここで、SPADEアルゴリズム(Zaki、SPADE:頻繁なシーケンスをマイニングするための効率的なアルゴリズム、機械学習、42、31〜60、2001も参照)を適用すると、メモリの問題が発生します。大きな語彙の多いシーケンスから順次パターンを見つけるためのより良い代替方法はありますか?
マルコフチェーンモンテカルロアプローチを使用できますか?
—
Zach、