機械学習の実験にPythonライブラリを使用することを検討しています。これまで、私はWEKAに頼っていましたが、全体的にはかなり不満でした。これは主に、WEKAがあまりサポートされていないことを発見し(ごく少数の例、ドキュメントがまばらで、コミュニティのサポートが私の経験では望ましいものではない)、助けが得られずにスティッキーな状況にいることに気付いたからです。私がこの動きを検討しているもう1つの理由は、私はPythonが本当に好きで(Pythonが初めて)、Javaのコーディングに戻りたくないからです。
だから私の質問は、何がもっと
- 包括的
- スケーラブル(10万の機能、1万の例)および
- PythonでMLを実行するためのライブラリをサポートしていますか?
テキスト分類を行うことに特に興味があるので、分類子、特徴選択方法(情報ゲイン、カイ二乗など)の優れたコレクション、およびテキスト前処理機能(ステミング、ストップワード削除)を備えたライブラリを使用したいと思います。 、tf-idfなど)。
ここや他の場所での過去の電子メールスレッドに基づいて、これまでPyML、scikits-learn、Orangeを見てきました。私が言及した上記の3つの指標に関して、人々の経験はどうでしたか?
他の提案はありますか?