「ビールとおむつ」の相関分析を行う方法


8

次と同等のデータがあります。

shopper_1 = ['beer', 'eggs', 'water',...]
shopper_2 = ['diapers', 'beer',...]
...

このデータセットを分析して、次のような意味を持つ相関行列を取得します。xを購入した場合、yを購入する可能性があります。

Python(またはMATLAB以外の何か)を使用して、どうすればそれを回避できますか?いくつかの基本的なガイドライン、または私がどこを見るべきかへのポインタが役立つでしょう。

ありがとうございました、

編集-私が学んだこと:

  1. これらの種類の問題は、相関ルールの発見と呼ばれます。ウィキペディアには、そうするための一般的なアルゴリズムのいくつかをカバーする優れた記事があります。そうするための古典的なアルゴリズムは、Agriraw et alによるAprioriのようです。al。

  2. これにより、Pythonインターフェースのデータマイニングパッケージであるorangeが表示されました。Linuxの場合、インストールする最良の方法は、提供されているsetup.pyを使用してソースからインストールすることです

  3. Orangeはデフォルトで、サポートされているいくつかの方法の1つでフォーマットされたファイルから入力を読み取ります。

  4. 最後に、単純なアプリオリ相関ルールの学習はオレンジ色で単純です。


3
Rパッケージを探しているarulesなら、一見の価値があるでしょう。多分「連想ルール」が良い検索用語です
Karsten W.

2
この問題への「標準」アプローチについては、Aprioriアルゴリズムも参照してください。
枢機卿

回答:


7

コメントで与えられたリンクに加えて、ここにいくつかのさらなるポインタがあります:

Pythonについて、あなたは何を探しているのか理解できたと思いますが、Orangeデータマイニングパッケージは、相関ルールとアイテムセットのパッケージを備えています(後者については、Webサイトで参照を見つけることができません)。

編集:

私は最近、pysuggestに遭遇しました。

さまざまな推奨アルゴリズムを実装するトップN推奨エンジン。パーソナライズされた情報フィルタリング技術であるトップNレコメンダーシステムを使用して、特定のユーザーが関心を持つNアイテムのセットを識別します。近年、トップNレコメンダーシステムは、顧客が購入する可能性が最も高い製品をレコメンドするなど、さまざまなアプリケーションで使用されています。ユーザーが楽しいと思う映画、テレビ番組、または音楽をすすめます。関心のあるWebページを特定する。または、情報を検索する別の方法を提案することもできます。


単純な相関行列が不十分になる前に、いくつの製品が関与する必要があるのでしょうか。
rolando2
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.