分類ルールを生成するためのアルゴリズム


11

したがって、分類子によって解決される従来の問題領域にかなりきちんと適合する機械学習アプリケーションの可能性があります。つまり、アイテムを記述する一連の属性と、それらが最終的に含まれる「バケット」があります。ただし、モデルを作成するのではなくNaive Bayesや同様の分類子のような確率の場合、出力をエンドユーザーが確認および変更できるほぼ人間が読めるルールのセットにする必要があります。

アソシエーションルールの学習は、この種の問題を解決するアルゴリズムのファミリーのように見えますが、これらのアルゴリズムは、機能の一般的な組み合わせを特定することに焦点を当てているようで、これらの機能が指す可能性のある最終的なバケットの概念を含みません。たとえば、データセットは次のようになります。

Item A { 4-door, small, steel } => { sedan }
Item B { 2-door, big,   steel } => { truck }
Item C { 2-door, small, steel } => { coupe }

「大きくて2ドアの場合はトラック」というルールが必要です。「4ドアの場合も小さい」というルールは必要ありません。

私が考えることができる1つの回避策は、単純に相関ルール学習アルゴリズムを使用して、エンドバケットを含まないルールを無視することですが、それは少しハックに思えます。そこにあるアルゴリズムのファミリーを見逃したことがありますか?それとも、最初から間違って問題に取り組んでいますか?

回答:


9

Quinlan製のC45は、予測のルールを作成できます。このウィキペディアのページを確認してください。ウェカではその名前がJ48であることを知っています。RとPythonのどちらが実装されているのかわかりません。とにかく、この種の決定木から、予測のルールを推測できるはずです。

後で編集

また、分類のルールを直接推論するためのアルゴリズムにも興味があるかもしれません。RIPPERは1つで、これもWekaで別の名前のJRipになりました。RIPPER:Fast Effective Rule Induction、WW Cohen 1995の元の論文を参照してください


以前のプロジェクトでC45 / J48を実験しました。そこから取得できるルールがあることを知りませんでした。RIPPERもチェックします。ありがとう!
super_seabass

またR.でC50パッケージをチェックアウト
nfmcclure

この質問/回答の最新情報を提供したいと思いました。JRipを使用して成功していますが、新しい主要候補はFURIA(cs.uni-paderborn.de/fileadmin/Informatik/eim-i-is/PDFs/…)です。)。包括的なルールセットを生成しようとするため、人間によるレビュー/使用に最適なルールを生成しています。JRipは適切なルールを作成しますが、他のルールが適用されない場合の分類には「デフォルト」のルールがあります。デフォルトのバケットは、プロジェクトのビジネスコンテキストではうまく機能しません。徹底的なルールが必要です。
super_seabass 2014年

7

あなたが説明したことから、それは実際にはそれよりもさらに単純です---基本的な分類ツリーアルゴリズムを探しているだけです(したがって、予測精度に最適化されたC4.5のような少し複雑なバリアントは必要ありません)。正規のテキストは次のとおりです。

http://www.amazon.com/Classification-Regression-Wadsworth-Statistics-Probability/dp/0412048418

これはRで簡単に実装されます:

http://cran.r-project.org/web/packages/tree/tree.pdf

とPython:

http://scikit-learn.org/stable/modules/tree.html


木がここで役立つことに私は同意しません。これは、フィルタリングルールの問題であり、それはで達成することができるarulesの R.パッケージ
adesantos


1

Rでarulesパッケージを試す必要があります。これにより、アソシエーションルールを作成できるだけでなく、各ルールの長さ、各ルールの重要性を指定したり、それらをフィルタリングしたりすることもできます。このパッケージのrhs()コマンド)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.