次と同等のデータがあります。
shopper_1 = ['beer', 'eggs', 'water',...]
shopper_2 = ['diapers', 'beer',...]
...
このデータセットを分析して、次のような意味を持つ相関行列を取得します。xを購入した場合、yを購入する可能性があります。
Python(またはMATLAB以外の何か)を使用して、どうすればそれを回避できますか?いくつかの基本的なガイドライン、または私がどこを見るべきかへのポインタが役立つでしょう。
ありがとうございました、
編集-私が学んだこと:
これらの種類の問題は、相関ルールの発見と呼ばれます。ウィキペディアには、そうするための一般的なアルゴリズムのいくつかをカバーする優れた記事があります。そうするための古典的なアルゴリズムは、Agriraw et alによるAprioriのようです。al。
これにより、Pythonインターフェースのデータマイニングパッケージであるorangeが表示されました。Linuxの場合、インストールする最良の方法は、提供されているsetup.pyを使用してソースからインストールすることです
Orangeはデフォルトで、サポートされているいくつかの方法の1つでフォーマットされたファイルから入力を読み取ります。
最後に、単純なアプリオリ相関ルールの学習はオレンジ色で単純です。
arules
なら、一見の価値があるでしょう。多分「連想ルール」が良い検索用語です