回答:
ハイン、
利用可能な機能を持つ多くのツールとライブラリがあります。
どちらを選択するかは、作業にGUIを使用するか、それを他のプログラムに埋め込むかによって異なります。
スタンドアロンのデータマイニングツール(Javaインターフェースを備えたWEKAのような他のものがあります):
テキストベース:
ライブラリ:
プログラミング言語を十分に理解している場合は、その言語のlibを使用するか、Rを試してみます。そうでない場合は、guiを使用してツールの1つを試すことができます。
Rでのツリーの例:
# we are using the iris dataset
data(iris)
# for our tree based model we use the rpart package
# to download it type install.packages("rpart")
library(rpart)
# Building the tree
fit <- rpart(Species ~ Petal.Length + Petal.Width, method="class", data=iris)
# Plot the tree
plot(fit)
text(fit)
Rを使用した分析では、自分でコーディングする必要がありますが、そのまま使用できるほとんどの分類タスク用のパッケージが見つかります。概要はここにあります機械学習タスクビュー
RapidMinderを使い始めるには、Youtubeをご覧ください。決定木についても、いくつかのスクリーンキャストがあります。
Wekaは、無料のオープンソースの機械学習ツールスイートです。GUIと、必要に応じてJavaコードから呼び出すAPIがあります。
彼らはいくつかの決定木アルゴリズムを含む多くの分類アルゴリズムを持っています。これらはUIで使用できます。最近傍は少しトリッキーで、APIを直接使用する必要があるようです。
Rapid Minerはおそらくこの種のことをサポートしていると思いますが、そのような目的で使用したことはありません。
Rを検討することもできますが、その場合は、少し手を汚す必要があります。
Netflixが映画の格付けの分類で大量の作業を行っていることに注意してください。数年前、彼らはグループに100万ドルの賞金を提供しました。さまざまなチームがその問題にどのように取り組んだかを読むことに興味があるかもしれません。
多分…WEKA? http://www.cs.waikato.ac.nz/ml/weka/