回答:
Rプロジェクト
Rは、ビッグボックスパッケージに代わる最初の広く受け入れられたオープンソースの代替であったため、価値があり、重要です。成熟しており、十分にサポートされており、多くの科学コミュニティで標準となっています。
これは忘れられてしまうかもしれませんが、長年にわたってMatlabクローンOctaveを喜んで使用していました。かなり良いライブラリが明確にそれはR.によって矮小化されているがR以上の一つの可能な利点は、MATLAB /オクターブであることである、などの異なる分布からの確率変数の生成、統計的検定のためのオクターブ鍛造であり、共通語の最適化の研究者は、数値アナリストの間で、および適用された数学者の一部のサブセット(少なくとも学校にいたとき)ですが、私の知る限り、私の学部の誰もRを使用していませんでした。可能であれば両方を学んでください!
データマイニング用のWeka -Javaの多くの分類およびクラスタリングアルゴリズムが含まれています。
ggobiは「高次元データを探索するためのオープンソースの視覚化プログラムです。」
Mat Kelceyには、5分間のggobiの紹介があります。
Incanterは、統計計算とグラフィックスのためのClojureベースのRライクなプラットフォーム(環境+ライブラリ)です。
FSFによって開始されたプロジェクト、またはGNU General Public Licenseの下で再配布されたプロジェクトもあります。
JMulTiのように、教科書のコンパニオンソフトウェアとしてリリースされたアプリケーションもありますが、まだ少数の人しか使用していません。
私はまだで遊んでいますxlispstat Lispは、主にR(上のヤン・デ・レーウの概要を参照してくださいに取って代わられたが、随時、R対のLispにおける統計ソフトウェアのジャーナル)。興味深いことに、R言語の共同創設者の1人であるRoss Ihakaは、統計ソフトウェアの未来は...と反対に主張しました... Lisp:Back to the Future:Lisp as Base as Statistics Computing System。@AlexはすでにClojureベースの統計環境Incanterを指していたので、近い将来Lispベースのソフトウェアの復活が見られるでしょうか?:-)
データおよびテキストマイニング用のRapidMiner
まず第一に、私の意見ではすべての中で最も優れたツールはRであり、ここには列挙しないライブラリとユーティリティがたくさんあることを教えてください。
wekaについての議論を広げましょう
RにはRWekaと呼ばれるRのライブラリがあります。これはRに簡単にインストールでき、この素晴らしいプログラムの多くの機能とRの機能を使用します。簡単な決定木を作成するためのコード例を示します。このパッケージに付属している標準データベースから読み取ります(結果のツリーを描画することも非常に簡単ですが、その方法についてはRWekaのドキュメントにある研究を行うようにします。
library(RWeka)
iris <- read.arff(system.file("arff", "iris.arff", package = "RWeka"))
classifier <- IBk(class ~., data = iris)
summary(classifier)
これを行うためのpythonライブラリもいくつかあります(pythonは非常に簡単に習得できます)
まず、使用できるパッケージを列挙します。詳細については説明しません。Weka(はい、Python用のライブラリがあります)、NLKT(データマイニングに加えてテキストマイニング用の最も有名なオープンソースパッケージ)、statPy、sickits、およびscipy。
優れたオレンジもあります(後で説明します)。ここに、テーブルcmpart1のデータからツリーを作成するためのコード例があります。これは、10倍の検証も実行します。
import orange, orngMySQL, orngTree
data = orange.ExampleTable("c:\\python26\\orange\\cmpart1.tab")
domain=data.domain
n=10
buck=len(data)/n
l2=[]
for i in range(n):
tmp=[]
if i==n-1:
tmp=data[n*buck:]
else:
tmp=data[buck*i:buck*(i+1)]
l2.append(tmp)
train=[]
test=[]
di={'yy':0,'yn':0,'ny':0,'nn':0}
for i in range(n):
train=[]
test=[]
for j in range(n):
if j==i:
test=l2[i]
else:
train.extend(l2[j])
print "-----"
trai=orange.Example(domain, train)
tree = orngTree.TreeLearner(train)
for ins in test:
d1= ins.getclass()
d2=tree(ins)
print d1
print d2
ind=str(d1)+str(d2)
di[ind]=di[ind]+1
print di
最後に、私が使用した興味深いパッケージをいくつか紹介します
オレンジ:初心者と専門家向けのデータの視覚化と分析。ビジュアルプログラミングまたはPythonスクリプトによるデータマイニング。機械学習のコンポーネント。バイオインフォマティクスおよびテキストマイニングの拡張機能。(私は個人的にこれをお勧めします、私はそれを多くのPythonに統合して使用しました、そしてそれは優秀でした)あなたが私に望むなら、私はあなたにいくつかのPythonコードを送ることができます。
ROSETTA:ラフセット理論の枠組み内で表形式データを分析するためのツールキット。ROSETTAは、データマイニングおよび知識発見プロセス全体をサポートするように設計されています:データの初期ブラウジングおよび前処理から、最小限の属性セットの計算およびif-thenルールまたは記述パターンの生成、誘導されたルールまたはパターンの検証および分析まで(これもとても楽しかったです)
KEEL:回帰、分類、クラスタリング、パターンマイニングなどを含むデータマイニング問題の進化的アルゴリズムを評価します。これにより、比較用の統計的テストモジュールなど、既存のモデルと比較した学習モデルの完全な分析を実行できます。
DataPlot:科学的な視覚化、統計分析、および非線形モデリング用。ターゲットDataplotユーザーは、科学プロセスおよび工学プロセスの特性評価、モデリング、視覚化、分析、監視、および最適化に携わる研究者およびアナリストです。
Openstats:統計および測定入門、記述統計、単純比較、分散分析、相関、重回帰、中断時系列、多変量統計、非パラメトリック統計、測定、統計プロセス制御、財務手順、ニューラルネットワーク、シミュレーションが含まれます
Colin GillespieはBUGSについて言及しましたが、Gibbs Samplingなどのより良いオプションはJAGSです。
やりたいのがARIMAだけなら、X12-ARIMAに勝るものはありません。X12-ARIMAは、フィールドおよびオープンソースのゴールドスタンダードです。実際のグラフは実行しません(Rを使用して実行します)が、診断はそれ自体でのレッスンです。
私が最近発見したこと、そして学習し始めたばかりのことを少し遠ざけて...
ADMC(AD Model Builder)は、AUTODIFライブラリに基づく非線形モデリングを行い、MCMCおよびその他のいくつかの機能をスローします。モデルをC ++実行可能ファイルに前処理およびコンパイルし、スタンドアロンアプリとしてコンパイルします。 R、MATLABなどで実装された同等のモデルよりもはるかに高速であると考えられていました。ADMB Project
漁業の世界では今でも最も人気がありますが、他の目的には非常に興味深いようです。Rのグラフやその他の機能はありません。Rと組み合わせて使用される可能性が高いでしょう。
GUIでベイジアンネットワークを使用する場合:SamIamは素晴らしいツールです。Rにはこれを行うパッケージがいくつかありますが、SamIamは非常に優れています。
C / C ++でプログラミングしたい人のためのGSLは、ランダムジェネレーター、線形代数などにいくつかのルーチンを提供するため、貴重なリソースです。GSLは主にLinuxで使用できますが、Windows用のポートもあります。(参照:http : //gladman.plushost.co.uk/oldsite/computing/gnu_scientific_library.phpおよびhttp://david.geldreich.free.fr/dev.html)
私は2番目のジェイ。Rが貴重なのはなぜですか?理由の簡単なリストを以下に示します。http://www.inside-r.org/why-use-r。また、ggplot2も確認してください。これは、R用の非常に優れたグラフィックパッケージです。ここに、いくつかの優れたチュートリアルがあります。
Meta.Numericsは、統計分析を適切にサポートする.NETライブラリです。
R(Sクローン)およびOctave(Matlabクローン)とは異なり、「フロントエンド」はありません。統計分析を行う必要がある独自のアプリケーションを作成するときにリンクするライブラリであるという点で、GSLに似ています。C#とVisual Basicは、基幹業務アプリのC / C ++よりも一般的なプログラミング言語であり、Meta.NumericsはGSLよりも統計的な構成とテストをより広範囲にサポートしています。