テキストの統計的分類


32

私は統計的背景のないプログラマーであり、現在、事前に定義されたカテゴリーに分類したい多数の異なる文書について、異なる分類方法を検討しています。私はkNN、SVM、NNについて読んでいます。ただし、開始するのに苦労しています。どのリソースをお勧めしますか?私は単一変数および多変数計算を非常によく知っているので、私の数学は十分に強力でなければなりません。私は、Neural Networksに関するBishopの本も所有していますが、序論としては少々高密度であることが証明されています。

回答:


19

私はこれらの本をお勧めします-それらはAmazonでも高く評価されています:

ワイスによる「テキストマイニング」

Konchadyによる「テキストマイニングアプリケーションプログラミング」

ソフトウェアについては、無料でオープンソースのRapidMiner(テキストプラグイン付き)をお勧めします。

これが私の「テキストマイニングプロセス」です。

  • ドキュメントを収集します(通常はWebクロール)
    • [大きすぎる場合のサンプル]
    • タイムスタンプ
    • マークアップを取り除く
  • トークン化:文字、単語、n-gram、またはスライディングウィンドウに分割します
  • ステミング(別名lemmatization)
    • [同義語を含む]
    • ポーターまたはスノーフレークアルゴリズムの代名詞を参照してください。記事は通常、悪い予測因子です。
  • ストップワードを削除する
  • 特徴ベクトル化
    • バイナリ(表示または非表示)
    • 単語数
    • 相対頻度:tf-idf
    • 情報ゲイン、カイ二乗
    • [含める最小値がある]
  • 重み付け
    • 文書の上部にある単語の重みを高くしますか?

次に、それらを分類する作業を開始できます。必要に応じて、kNN、SVM、またはNaive Bayes。

私のテキストマイニングビデオのシリーズはこちらでご覧いただけます


これは素晴らしい答えです!私はあなたの本の提案を調べます、そしてあなたのプロセスの説明も素晴らしいです。特徴ベクトル化の提案が特に気に入っています。
エミルH

(ベクトル化の部分についてさらに詳しく説明したい場合、それは素晴らしいことです。)
エミルH

11

あなたが言及したトピックをカバーする優れた入門テキストは、情報検索の紹介です。これは、オンラインで全文無料で利用できます。

情報検索の概要


昨日仕事で実際にスキャンしました。興味深い読み物です。資料を吸収する時間がもっとあればいいのですが、必要なものを手に入れて先に進む必要がありました。
トーマスオーエンズ

同意した、それは素晴らしい本です。グーグルがどのように機能するかをかなり説明しています:)
ニールマク

5

ニューラルネットワークは、大量のドキュメントを処理するために遅くなる場合があります(これは現在、ほとんど廃止されています)。
また、分類子間でランダムフォレストをチェックすることもできます。それは非常に高速で、拡張性が高く、複雑なチューニングを必要としません。


ランダムフォレストの場合は+1。彼らはオーバーフィットしないので、間違いなく1を試すのに良い分類器です。
ザック

4

プログラミング側から来ている場合、1つのオプションはPython 用のNatural Language Toolkit(NLTK)を使用することです。自由入手できる O'Reillyの本があります。これは、特にドキュメントの分類子を作成するための密度が低く、より実用的な入門書です。

統計的な側面を強化することに興味がある場合、進行中のロジャー・レヴィの著書である「言語の研究における確率的モデル」を熟読するのは悪くないかもしれません。それはcogsci / compsciの大学院生向けに書かれており、統計NLP技術から始めています。


3

まず、Manning andSchütze の著書Foundations of statistics Natural Language Processingをお勧めします。

私が使用する方法は、単語頻度分布とngram言語モデルです。最初のトピックは、トピックで分類したい場合に非常にうまく機能し、トピックは具体的かつ専門的(キーワードを持っている)です。Ngramモデリングは、書き方などを分類する場合に最適な方法です。


0

単純ベイズは通常、テキスト分類の出発点です。ドブス博士の実装方法に関する記事はこちらです。また、SpamAssassinとPOPFileが使用するので、テキストの分類の終点でもあることがよくあります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.