大きなテキストコーパスはどこにありますか?[閉まっている]


16

ダウンロードする大きな(1000を超える)テキストコーパスを探しています。できれば世界のニュースやある種の報告書を使って。私は特許を持つものを見つけました。助言がありますか?


このスレッドは話題から外れているようです。meta.stats.stackexchange.com/questions/1032/…を参照してください。
whuber

それはデータセットを見つけることではなく、統計的な分析を行うことについてですので、この質問は、オフトピックのように見える
復活モニカ-ピーターFlom

2
このQ&Aは非常に役立つため、それは厄介です。
サイドショーボブ14年

@guaka、そのような小さな編集、特に閉じられている投稿のために、そのような古い投稿をぶつけないでください。私たちのスタイルの好みは「感謝」をすることではないのは事実ですが、このマイナーなものについては、そのままにしておきます。
gung-モニカの復職

回答:




6

ロイターのテキストコーパスは、この分野の古典であり、ここで見つけることができます


最も興味深い(または多様な)コーパスではありません。このライセンスは、Wikileaks(パブリックドメインの米国文書)またはwikinewsに対しても制限があります。
アリデル

@ariddellは同意しますが、一般的なNLPの例で使用されており、学習に役立つのに十分な大きさですが、優れたラップトップで分析するには十分に小さいです。
-richiemorrisroe



弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.