サンプルテキストの多様なセットはどこで入手できますか?[閉まっている]


14

ソフトウェアプロジェクトで使用するために英語で使用される文字または単語のシーケンスに関する統計を収集しようとしています。

多様なトピックをカバーする大量の英語のプレーンテキスト(数GBがいいでしょう)はどこで入手できますか?


3
どういうわけか、私はあなたが特にお楽しみいただけます感じるこれらの イラスト
ヤニス

@Yannis Rizosこれらはすごい:D。
-JSideris

@Yannis Rizosああ聞きしたいかわいい...
sevenseacat

@YannisRizosこれは数年前に閉鎖されました。私はついに質問を編集して、QAフォーマットに対してもう少し具体的で良くなるようにしました。閉じられないようにできますか?(あなたはまだこのモデレーターであるこのスレッドの唯一の人です)。
JSideris

回答:


19

ウィキペディアのデータダンプを使用できます。現在の改訂版のみを含む英語版ウィキペディアXMLデータダンプは約31 GBであるため、調査の出発点としては良いと思います。データダンプは非常に大きいため、SAXパーサーを使用してXMLからテキストを抽出することを検討する必要があります。WikiXMLJは、Wikipedia用に調整された便利なJava APIです。

そして、もちろん、常にStack Exchangeデータダンプがあります。最新のものは、すべての公共非ベータスタックExchangeサイトを含ん&2011年9月までのメタサイトをアップし、対応する。しかし、当然スタック為替ポストはそうおそらくあなたが望むだろとして一般化ではないとして、各サイトの範囲に集中しています。メタ投稿はもう少し一般的ですので、ウィキペディアに加えてそれらを考慮することができます。

特にプレーンテキストでは、これ以上良いものはないと思います。Data Hubからいくつかのオープンデータセットを利用できますが、英語版ウィキペディアのデータダンプは探しているものに非常に近いと思います。


1
これらはいくつかのクールなリソースです。
ハンゾー

スタックのものは、広大ですが、(必然的に)非常に狭い談話の分野をカバーするため、うまく一般化されないかもしれません。
jonsca

ああ、これらのファイルは巨大です!それらを開き、すべてのxmlがらくたを除外する方法を見つけたらすぐに、これはうまくいくはずです。ありがとう!
JSideris

1
@Bizorkeうれしい 完了したら、研究へのリンクを使用して質問を更新する必要があります。
ヤニス

5

Googleには、n-gramの確率を決定するために使用するデータセットのコレクションがあります。それらのバイグラム(2グラム)データセットを調べることで、良い全体像が得られるはずです。これらの分析がすでに行われている他の多くの企業があります。


3
私はただ同じことを書いていました。
jcmeloni

@jcmeloni素晴らしい心!
jonsca

5

Project Gutenbergには、すでにテキスト形式の英語のテキストの大規模なコーパスがあります。

Project Gutenbergは、42,000を超える無料の電子ブックを提供しています。無料のepubブック、無料のkindleブックから選択、ダウンロード、またはオンラインで読むことができます。

私たちは高品質の電子書籍を扱っています。すべての電子書籍は、以前に誠実な出版社によって出版されていました。私たちは数千人のボランティアの助けを借りて、デジタル化して熱心に校正しました...


1
Project Gutenbergについて考えましたが、集中的なデータダンプが見つかりませんでした。また、本を含めるには、著作権の有効期限が切れている必要があります。一般的には、本が最初に出版されてから50〜70年が経過したことを意味します。だから、データセットとして、Project Gutenbergが今日使われている言語を代表しているとは思わない。
ヤニス

1
「今日使用されている言語の代表的なもの」が必要な場合は、YouTubeのコメントを試してください。悲しいけれど事実です。
ヨルグWミットタグ

@JörgWMittag-痛い。本当に気になるのは、あなたが間違っているということです。
マイケルコーネ

イェルクWミッタークそれの可能性@が、その後、ユーチューブに特定の単語の特定は次のように、非常に頻繁に出てくるでしょう:FA AK KE AN ND GA AY:YO OU UT TU UBのBE、またはさらに悪い
JSideris

1

統計については、おそらく「英語のバイグラム周波数」を見ているでしょう。:見てくださいウィキ-バイグラム統計を

大きなテキストの検索に関しては、頻度がテキストのタイプに偏っていることに注意してください。たとえば、住所を分析すると、新聞記事の分析とは異なる結果が得られます。単にテストしたい場合は、任意の本のPDFファイル(数学やプログラミング、医療の本ではない)を使用して、テキストに変換してからテストを実行できます。また、新聞のWebページをテキストに変換して作業することもできます。


2
いや私は結果が偏っていることを実現しています。できるだけ多くの主題をカバーするリソースが必要です。たくさんの電子書籍をダウンロードすることを考えましたが、主な問題はそれらをすべてテキストに変換することです。しかし、いくつかのバイグラム統計を調べても害はありません(2文字の組み合わせが呼ばれていることに気づきませんでした)。
JSideris

ご意見ありがとうございます。ADOBE PDFリーダーで「ファイル」->「テキストとして保存」を使用して、PDFをテキストに変換できます。このリンクはまた、価値がある:data-compression.com/english.html
NoChance

@EmmadKareem OPは、数GBのテキストを要求しています。Adobe Readerを使用してPDFからテキストを抽出することを真剣に提案していますか?
ヤニス

@YannisRizos、数GBが必須要件であることには気が付きませんでした。この場合、この目的に使用できるより優れたツールがあります。これを指摘してくれてありがとう。
-NoChance
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.