データマイニングにおけるアソシエーションルールとデシジョンツリーの実際の違いは何ですか?


19

これら2つの手法の実際の違いについて、本当に簡単な説明はありますか?

  • どちらも教師あり学習に使用されるようです(ただし、関連付けルールは教師なし学習も処理できます)。

  • 両方とも予測に使用できます

「良い」説明に最も近いのは、Statsoft Textbookです。アソシエーションルールは次の目的で使用されると言われています。

...大規模なデータセットのカテゴリ変数の特定の値間の関係または関連付けを検出します。

ながら、ディシジョン・ツリー分類をするために使用されるものとして説明されています。

... 1つ以上の予測変数の測定値から、カテゴリ従属変数のクラスのケースまたはオブジェクトのメンバーシップを予測します。

ただし、Rデータマイニングでは、ターゲットフィールドで使用されるアソシエーションルールの例を示しています

したがって、両方を使用してグループのメンバーシップを予測できますが、決定木は非カテゴリー入力データを処理できますが、関連付けルールは処理できないという重要な違いはありますか?または、より基本的なものがありますか?1つのサイト(sqlserverdatamining.com)は、主な違いは次のとおりであると述べています。

デシジョンツリールールは情報獲得に基づいており、アソシエーションルールは人気や信頼に基づいています。

したがって、(おそらく自分の質問に答える)それは、決定木が実際に分散を最小化しようとしている間に、データセットに表示される頻度(およびそれらが「真」である頻度)に基づいて関連付けルールが純粋に評価されることを意味しますか?

誰かが良い説明を知っているなら、彼らは私にそれを向けたいと思うでしょう、それは素晴らしいでしょう。

回答:


14

F=F1FmCFCF

t1={12}t2={1345}t3={2345}tn={2345}
{35}{4}

すべての機能がカテゴリに分類されている場合など、特定の分類タスクに関連付け分析を使用できることがわかりました。アイテムを機能として表示するだけでよいのですが、これは関連分析の目的ではありません。


3
  • 「アソシエーションルールは、レコードのオーバーラップサブセットを含む特定のしきい値を超えるすべてのルールを見つけることを目的としていますが、決定ツリーは、ほとんどのレコードが同じクラスに属する空間の領域を見つけます。決定木で見つかったルールが関連ルールで見つからない場合、それは制約が検索スペースを整理したか、サポートまたは信頼が高すぎるためです。」

  • 「コンビナトリアル空間で機能するため、文献で提案されている多くの最適化にもかかわらず、関連付けルールのアルゴリズムは遅くなりますが、各分割はレコードの小さなサブセットを連続して取得するため、決定木は比較的速くなります。」

  • 別の問題は、決定ツリーが同じルールに対して同じ属性を複数回繰り返すことができるということです。なぜなら、そのような属性は優れた弁別子だからです。ルールは結合であるため、これは大きな問題ではありません。したがって、ルールは属性の1つの間隔に単純化できますが、そのような間隔は一般に小さく、ルールがあまりにも具体的です。

からの抜粋:

Ordonez、C.&Zhao、K.(2011)。複数のターゲット属性を予測するための関連ルールと決定ツリーの評価。インテリジェントデータ分析、15(2)、173–192。

このトピックを扱った素晴らしい記事で、間違いなく読む価値があります。


2

アソシエーションルールとデシジョンツリーの両方がユーザーに一連のルールを示唆しているため、どちらも類似していると主張するかもしれませんが、デシジョンツリーとアソシエーションルールの理論上の違いを理解する必要があります。使用中で。

第一に、決定木は、アルゴリズムが「結果」を予測しようとする教師ありアプローチです。実際の状況での「結果」の典型的な例としては、解約、詐欺、キャンペーンへの応答などがあります。そのため、決定ツリールールを使用して結果を予測します。

アソシエーションルールの学習は、多くの場合、大規模な商用データベース内で、アルゴリズムがアイテム間のアソシエーションを見つけようとする教師なしアプローチです。大規模な商用データベースの典型的な例は、eコマースWebサイトでの顧客の購入履歴など、小売業者のトランザクションを含むデータベースです。アイテムは、店舗から購入した製品でも、オンラインストリーミングプラットフォームで視聴した映画でもかまいません。アソシエーションルールの学習とは、ある製品の購入が別の製品の購入をどのように誘導するかに関することです。

次に、意思決定ツリーは、情報ゲイン、ジニ係数、エントロピーなどの不純物/不確実性のメトリックに基づいて構築されますが、相関ルールはサポート、信頼性、リフトに基づいて導出されます。

第三に、決定木は「教師あり」アプローチであるため、その精度は測定可能ですが、相関ルール学習は「教師なし」アプローチであるため、その精度は主観的です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.