Pythonの「頻繁なシーケンスマイニング」パッケージは適切ですか?


12

MLLibのFPM以外に、Pythonで優れた「頻繁なシーケンスマイニング」パッケージを使用した(または気に入った)誰かがいますか?私は安定したパッケージを探しています。ありがとうございました!

回答:


6

私が見つけた唯一のものは次のとおりです:https : //github.com/bartdag/pymining

それらはBIDEそこに実装されていますが、コードは維持されていません。

PS私はあなたの質問に参加しています:-|


明確にするために、頻繁に閉じたシーケンスをマイニングするBIDEは実装していません。実際に、すべての頻繁なシーケンスをマイニングするPrefixSpanを実装しました。PrefixSpanとBIDEは同じパターン列挙フレームワークを共有しているため、著者たちはBIDE論文を引用しています。
Chuancong Gao

最後に私がしたことを使用します:philippe-fournier-viger.com/spmf-これはJAVA libですが、自分のニーズに合わせてpythonでラップしました
yossico

6

私はPython 3でPrefixSpanとBIDEの両方の効率的な実装を積極的に維持しており、頻繁なパターンとトップk(クローズド)の連続パターンの両方のマイニングをサポートしています。

https://github.com/chuanconggao/PrefixSpan-py


これらをJavaScriptで実装したいのですが、これらのアルゴリズムがどのように機能するのか完全には理解していません。分かりやすい英語で説明できますか?
inf3rno 2018年

PrefixSpanの元の最小限の実装を確認することをお勧めします。そのコア部分はわずか15行です。gist.github.com/chuanconggao/4df9c1b06fa7f3ed854d5d96e2ae499f
Chuancong Gao

ありがとう!私はそれをjsに翻訳しようとしますが、簡単ではありません。:-) Afaik PrefixSpanは、プレフィックスが一致する場所に基づいて予測データベースを構築しています。私は現在、理論がさらに優れたアルゴリズムであるBIDEについて読んでいます。
inf3rno 2018年

jsコレクションとpythonコレクションの違いが多すぎます。私はjsでコードを再現することができませんでした。後でもう一度やってみます。
inf3rno

それが役立つかどうかはわかりませんが、PrefixSpanの別のScalaバージョンがあります。github.com/chuanconggao/PrefixSpan-scalaただし、実装する前にアルゴリズムを完全に理解することを強くお勧めします。
Chuancong Gao

1

私が使ってきたFIM過去にさんfpgrowth機能を、それがうまく働きました。しかし、Windowsマシンにインストールするのはちょっと面倒です。それは学術的なウェブサイトのようですので、彼らが時間の経過とともにコードに多くの更新を行っているかどうかはわかりません...


1

自分で書くことを考えましたか?たぶん現在、最新のメンテナンスされたライブラリはおそらくないからです。

これを確認してください。基本的なものです。PrefixSpanおよびClosed / Maximalパターンは、実際にはそれほど難しくありません。

http://sequenceanalysis.github.io/


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.