ソフトウェアプロジェクトで使用するために英語で使用される文字または単語のシーケンスに関する統計を収集しようとしています。
多様なトピックをカバーする大量の英語のプレーンテキスト(数GBがいいでしょう)はどこで入手できますか?
ソフトウェアプロジェクトで使用するために英語で使用される文字または単語のシーケンスに関する統計を収集しようとしています。
多様なトピックをカバーする大量の英語のプレーンテキスト(数GBがいいでしょう)はどこで入手できますか?
回答:
ウィキペディアのデータダンプを使用できます。現在の改訂版のみを含む英語版ウィキペディアのXMLデータダンプは約31 GBであるため、調査の出発点としては良いと思います。データダンプは非常に大きいため、SAXパーサーを使用してXMLからテキストを抽出することを検討する必要があります。WikiXMLJは、Wikipedia用に調整された便利なJava APIです。
そして、もちろん、常にStack Exchangeデータダンプがあります。最新のものは、すべての公共非ベータスタックExchangeサイトを含ん&2011年9月までのメタサイトをアップし、対応する。しかし、当然スタック為替ポストはそうおそらくあなたが望むだろとして一般化ではないとして、各サイトの範囲に集中しています。メタ投稿はもう少し一般的ですので、ウィキペディアに加えてそれらを考慮することができます。
特にプレーンテキストでは、これ以上良いものはないと思います。Data Hubからいくつかのオープンデータセットを利用できますが、英語版ウィキペディアのデータダンプは探しているものに非常に近いと思います。
Project Gutenbergには、すでにテキスト形式の英語のテキストの大規模なコーパスがあります。
Project Gutenbergは、42,000を超える無料の電子ブックを提供しています。無料のepubブック、無料のkindleブックから選択、ダウンロード、またはオンラインで読むことができます。
私たちは高品質の電子書籍を扱っています。すべての電子書籍は、以前に誠実な出版社によって出版されていました。私たちは数千人のボランティアの助けを借りて、デジタル化して熱心に校正しました...
統計については、おそらく「英語のバイグラム周波数」を見ているでしょう。:見てくださいウィキ-バイグラム統計を
大きなテキストの検索に関しては、頻度がテキストのタイプに偏っていることに注意してください。たとえば、住所を分析すると、新聞記事の分析とは異なる結果が得られます。単にテストしたい場合は、任意の本のPDFファイル(数学やプログラミング、医療の本ではない)を使用して、テキストに変換してからテストを実行できます。また、新聞のWebページをテキストに変換して作業することもできます。