回答:
チェックアウト http://lintool.github.com/MapReduceAlgorithms/MapReduce-book-final.pdf のMapReduceで処理するデータ集約型のテキストを-この本はかなり学術的であるが、一般的に使用されるテキスト処理技術の数をカバーし、それらがどのようにparrallisedすることができますmap reduceを使用した大規模なデータセット。
www.rtexttools.com これは、幅広い分類アルゴリズム(一部のアンサンブルメソッドを含む)をテキスト分析に適用するのに役立つ優れたRパッケージです。そして
私は最近この分野で4冊の本を読みました:
Feldman、R.およびJames Sanger、J.(2006)。テキストマイニングハンドブック:非構造化データの分析における高度なアプローチ。ケンブリッジ大学出版局。
これは、実用的な例、ソフトウェア、応用テキストマイニングに焦点を当てています。テキストマイニングの実際の使用例をいくつか示します。テキストマイニングツールの商用アプリケーションについて読みたい場合は、興味深いでしょう。
Srivastava、ANおよびSahami、M.(2009)。テキストマイニング:分類、クラスタリング、およびアプリケーション。チャップマン&ホール/ CRC。
さまざまなテキストマイニングツールの使用例として使用される一連の研究論文です。入門テストとしては、あまりにも集中的です。
Weiss、SM、Indurkhya、N.、Zhang、T.およびDamerau、F.(2005)。テキストマイニング:非構造化情報を分析するための予測手法。 スプリンガー。
いくつかの一般的な問題を説明する非常に導入的なテキスト。
マニング、C(1999)。統計自然言語処理の基礎。MIT Press。
これは、このトピックについてすでに読んだ最高の本です。それはよく書かれていて、明確で、理論により深く入り込んでいますが、実践にやさしい方法です。一般的な導入から始まりますが、最も一般的に使用される方法とアルゴリズムのいくつかをレビューします。あなたがたった一冊の本を選ばなければならないなら、私はこれを勧めます。
R(tmライブラリ)またはPython(nltkライブラリ)の使用に焦点を当てた自然言語処理とテキストマイニングに関する複数の本を簡単に見つけることもできます。
Sholom Weissのアイデアのために何度も何度も読んだ本は、Text Mining:Predictive Methods ...です。テキストマイニングはさまざまなことを試してみることがあるので、問題に取り組むためのアイデアがたくさんあります。グローバルディクショナリとローカルディクショナリ、保持する機能の数などです。この本は優れたアイデアジェネレーターです。ケーススタディもあります。
http://www.nltk.org/の NLP は無料で、NLTKとPythonで結合することをお勧めします。ではごきげんよう