回答:
私はこれらの本をお勧めします-それらはAmazonでも高く評価されています:
ワイスによる「テキストマイニング」
Konchadyによる「テキストマイニングアプリケーションプログラミング」
ソフトウェアについては、無料でオープンソースのRapidMiner(テキストプラグイン付き)をお勧めします。
これが私の「テキストマイニングプロセス」です。
次に、それらを分類する作業を開始できます。必要に応じて、kNN、SVM、またはNaive Bayes。
私のテキストマイニングビデオのシリーズはこちらでご覧いただけます
ニューラルネットワークは、大量のドキュメントを処理するために遅くなる場合があります(これは現在、ほとんど廃止されています)。
また、分類子間でランダムフォレストをチェックすることもできます。それは非常に高速で、拡張性が高く、複雑なチューニングを必要としません。
プログラミング側から来ている場合、1つのオプションはPython 用のNatural Language Toolkit(NLTK)を使用することです。自由に入手できる O'Reillyの本があります。これは、特にドキュメントの分類子を作成するための密度が低く、より実用的な入門書です。
統計的な側面を強化することに興味がある場合、進行中のロジャー・レヴィの著書である「言語の研究における確率的モデル」を熟読するのは悪くないかもしれません。それはcogsci / compsciの大学院生向けに書かれており、統計NLP技術から始めています。
まず、Manning andSchütze の著書Foundations of statistics Natural Language Processingをお勧めします。
私が使用する方法は、単語頻度分布とngram言語モデルです。最初のトピックは、トピックで分類したい場合に非常にうまく機能し、トピックは具体的かつ専門的(キーワードを持っている)です。Ngramモデリングは、書き方などを分類する場合に最適な方法です。
単純ベイズは通常、テキスト分類の出発点です。ドブス博士の実装方法に関する記事はこちらです。また、SpamAssassinとPOPFileが使用するので、テキストの分類の終点でもあることがよくあります。