サンプルテキストの多様なセットはどこで入手できますか？[閉まっている]

14

現在のところ、この質問はQ＆A形式には適していません。回答は事実、参考文献、または専門知識によってサポートされると予想されますが、この質問は議論、議論、世論調査、または広範な議論を求める可能性があります。この質問を改善し、場合によっては再開できると思われる場合は、ヘルプセンターをご覧ください。

6年前に閉鎖されました。

ソフトウェアプロジェクトで使用するために英語で使用される文字または単語のシーケンスに関する統計を収集しようとしています。

多様なトピックをカバーする大量の英語のプレーンテキスト（数GBがいいでしょう）はどこで入手できますか？

research statistics

— JSideris
ソース

3

どういうわけか、私はあなたが特にお楽しみいただけます感じるこれらのイラスト

— ヤニス

@Yannis Rizosこれらはすごい：D。

— -JSideris

@Yannis Rizosああ聞きしたいかわいい...

— sevenseacat

@YannisRizosこれは数年前に閉鎖されました。私はついに質問を編集して、QAフォーマットに対してもう少し具体的で良くなるようにしました。閉じられないようにできますか？（あなたはまだこのモデレーターであるこのスレッドの唯一の人です）。

— JSideris

19

ウィキペディアのデータダンプを使用できます。現在の改訂版のみを含む英語版ウィキペディアのXMLデータダンプは約31 GBであるため、調査の出発点としては良いと思います。データダンプは非常に大きいため、SAXパーサーを使用してXMLからテキストを抽出することを検討する必要があります。WikiXMLJは、Wikipedia用に調整された便利なJava APIです。

そして、もちろん、常にStack Exchangeデータダンプがあります。最新のものは、すべての公共非ベータスタックExchangeサイトを含ん＆2011年9月までのメタサイトをアップし、対応する。しかし、当然スタック為替ポストはそうおそらくあなたが望むだろとして一般化ではないとして、各サイトの範囲に集中しています。メタ投稿はもう少し一般的ですので、ウィキペディアに加えてそれらを考慮することができます。

特にプレーンテキストでは、これ以上良いものはないと思います。Data Hubからいくつかのオープンデータセットを利用できますが、英語版ウィキペディアのデータダンプは探しているものに非常に近いと思います。

— ヤニス
ソース

1

これらはいくつかのクールなリソースです。

— ハンゾー

スタックのものは、広大ですが、（必然的に）非常に狭い談話の分野をカバーするため、うまく一般化されないかもしれません。

— jonsca

ああ、これらのファイルは巨大です！それらを開き、すべてのxmlがらくたを除外する方法を見つけたらすぐに、これはうまくいくはずです。ありがとう！

— JSideris

1

@Bizorkeうれしい完了したら、研究へのリンクを使用して質問を更新する必要があります。

— ヤニス

5

Googleには、n-gramの確率を決定するために使用するデータセットのコレクションがあります。それらのバイグラム（2グラム）データセットを調べることで、良い全体像が得られるはずです。これらの分析がすでに行われている他の多くの企業があります。

— ジョンスカ
ソース

3

私はただ同じことを書いていました。

— jcmeloni

@jcmeloni素晴らしい心！

— jonsca

5

Project Gutenbergには、すでにテキスト形式の英語のテキストの大規模なコーパスがあります。

Project Gutenbergは、42,000を超える無料の電子ブックを提供しています。無料のepubブック、無料のkindleブックから選択、ダウンロード、またはオンラインで読むことができます。

私たちは高品質の電子書籍を扱っています。すべての電子書籍は、以前に誠実な出版社によって出版されていました。私たちは数千人のボランティアの助けを借りて、デジタル化して熱心に校正しました...

— マイケル・コーネ
ソース

1

Project Gutenbergについて考えましたが、集中的なデータダンプが見つかりませんでした。また、本を含めるには、著作権の有効期限が切れている必要があります。一般的には、本が最初に出版されてから50〜70年が経過したことを意味します。だから、データセットとして、Project Gutenbergが今日使われている言語を代表しているとは思わない。

— ヤニス

1

「今日使用されている言語の代表的なもの」が必要な場合は、YouTubeのコメントを試してください。悲しいけれど事実です。

— ヨルグWミットタグ

@JörgWMittag-痛い。本当に気になるのは、あなたが間違っているということです。

— マイケルコーネ

イェルクWミッタークそれの可能性@が、その後、ユーチューブに特定の単語の特定は次のように、非常に頻繁に出てくるでしょう：FA AK KE AN ND GA AY：YO OU UT TU UBのBE、またはさらに悪い

— JSideris

1

統計については、おそらく「英語のバイグラム周波数」を見ているでしょう。：見てくださいウィキ-バイグラム統計を

大きなテキストの検索に関しては、頻度がテキストのタイプに偏っていることに注意してください。たとえば、住所を分析すると、新聞記事の分析とは異なる結果が得られます。単にテストしたい場合は、任意の本のPDFファイル（数学やプログラミング、医療の本ではない）を使用して、テキストに変換してからテストを実行できます。また、新聞のWebページをテキストに変換して作業することもできます。

— チャンスは無い
ソース

2

いや私は結果が偏っていることを実現しています。できるだけ多くの主題をカバーするリソースが必要です。たくさんの電子書籍をダウンロードすることを考えましたが、主な問題はそれらをすべてテキストに変換することです。しかし、いくつかのバイグラム統計を調べても害はありません（2文字の組み合わせが呼ばれていることに気づきませんでした）。

— JSideris

ご意見ありがとうございます。ADOBE PDFリーダーで「ファイル」->「テキストとして保存」を使用して、PDFをテキストに変換できます。このリンクはまた、価値がある：data-compression.com/english.html

— NoChance

@EmmadKareem OPは、数GBのテキストを要求しています。Adobe Readerを使用してPDFからテキストを抽出することを真剣に提案していますか？

— ヤニス

@YannisRizos、数GBが必須要件であることには気が付きませんでした。この場合、この目的に使用できるより優れたツールがあります。これを指摘してくれてありがとう。

— -NoChance