平易な英語のアプリオリアルゴリズム?


9

アプリオリに関するウィキの記事を読みました。プルーンと結合のステップを理解できません。Aprioriアルゴリズムがどのように機能するかを簡単に説明できますか(私のような初心者が簡単に理解できるように)。

誰かがそれに含まれる段階的なプロセスを説明してくれると良いでしょう。


私のPython実装に興味があるかもしれません。
Martin Thoma

回答:


11

Wikipediaの記事は特に印象的ではありません。あなたはこれらのスライドがより便利かもしれません:123

各レベル、頻繁に(十分なサポートがある)アイテムセットがあります。 kkk

次のレベルでは、考慮する必要がある +アイテムセットには、それぞれのサブセットが頻繁である(十分なサポートがある)必要があるというプロパティが必要です。これはアプリオリプロパティです。頻繁に使用するアイテムセットのサブセットは頻繁に使用する必要があります。1k1

、{ 1 3 } 、{ 1 5 } 、{ 3 5 } 、{ 1 2 3 } 、{ 1 2 5 }{12}{1}{15}{5}{12}{125}{15}{25}{15}{2}{25}


2

アプリオリアルゴリズムは、データマイニングで使用される相関ルールマイニングアルゴリズムです。これは、指定された数のトランザクションの中から頻繁に使用されるアイテムセットを見つけるために使用されます。

基本的に2つのステップで構成されています

  1. 自己結合
  2. 剪定

これらの手順をk回繰り返します(kはアイテムの数)。最後の反復では、k個のアイテムを含む頻繁なアイテムセットを取得します。

詳細な例http://nikhilvithlani.blogspot.com/2012/03/apriori-algorithm-for-data-mining-made.htmlを使用した非常に簡単な説明については、こちらをご覧ください。

複雑な方程式がなく、簡単な説明があります。


2
通常、ブログにリンクするよりも、強調したい主なポイントの要約を提供する方が、詳細な説明なしに提供する方がよいため、この投稿通知を残しました。さらに、このサイトの目的は、ぶら下がりまたは一時的なリンクへの依存度を最小限に抑えて、特定の質問に対する知識豊富な回答のコレクションを構築することです。したがって、上記のリンクが10年後も存続することが保証できない場合は、たとえば、現在の返信でその主要なポイントを要約することを強くお勧めします。
CHL

1

平易な英語のアプリオリ。

Aprioriは、レベルごとの検索と呼ばれる反復アプローチを採用しています。この場合、kアイテムセットを使用して(k + 1)アイテムセットを探索します。まず、データベースをスキャンして各アイテムの数を累積し、最小サポートを満たすアイテムを収集することにより、頻繁な1アイテムセットのセットが見つかります。結果のセットはL1として示されます。次に、L2を見つけるためにL1が使用されます。これは、L3を見つけるために使用される頻繁な2項目セットのセットなどで、これ以上頻繁なk項目セットが見つからなくなるまで続きます。各Lkを見つけるには、データベースの1回のフルスキャンが必要です。

最後の反復では、基本的にアソシエーションルールと呼ばれる多くのkアイテムセットが作成されます。すべての可能なルールのセットから興味深いルールを選択するために、サポート信頼などのさまざまな制約測定が適用されます。

用語と用語

  • 1-itemsetsは{a}、{b}、{c}を意味します
  • 2-itemsetsは{a、b}、{d、d}、{a、c}を意味します
  • K-itemsetsは{i1、i2、i3、... ik}、{j1、j2、j3、.... jk}を意味します

結合ステップ:1アイテムセットはそれ自体と自己結合して2アイテムセットを生成することを意味します。

プルーニングステップ:結合からの結果セットは、最小サポートしきい値でフィルタリングされます。

カーディナリティセット:プルーンステップからの結果セット。

サポート = 'a'と 'b'を含むトランザクションの数/トランザクションの合計数。

サポート=> supp(a、b)=> p(a U b)

確信度 =「a」と「b」を含むトランザクションの数/「a」を含むトランザクションの数

確信度=> con(a、b)==> P(b | a)条件付き確率のみ。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.