グーテンベルクからすべての英語の本をダウンロードするには?


23

すべてのグーテンベルクの電子書籍を、プレーンテキスト形式(htmlではない)で、英語のみでダウンロードする必要があります。

誰もがグーテンベルグサーバーからそれらをすべてダウンロードする方法を提案していますか?

言語研究をするために彼らが必要です。

回答:


32

ロボットによるページへのアクセスに関する情報によると:

私たちのサイトへのロボットアクセスは、他のすべてが失敗した場合、最後のリソースとして残しておく必要があります。また、Project GutenbergのWebサイトは著作権で保護されています。

ただし、希望があります

より良い選択肢

  • Project Gutenberg Webサイトのオフラインバージョンを入手してください。
  • Project Gutenbergの電子書籍ファイルをすべて入手してください。
  • Project Gutenbergカタログデータを取得します。

そして:

[...]ロボットをhttp://www.gutenberg.org/robot/harvestに向けることで、すべての電子書籍を圧縮ファイルで取得できます

[...] zipファイルを展開すると、さらに70,000個のファイルが生成されます。

これは、次を使用してすべてのファイルを取得する方法の例ですwget

wget -w 2 -m http://www.gutenberg.org/robot/harvest

[...]いくつかのタイプのファイルのみが必要な場合:

wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt

[...]特定の言語のファイルのみが必要な場合:

wget -w 2 -m http://www.gutenberg.org/robot/harvest?langs[]=de

だから、私は質問します:

wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en

クロール中にダウンロードするファイルの数を制限するようにwgetに指示する方法はありますか(たとえば、最初に検出された100個のテキストファイル)。
rohanbk

私たちが言う「テキストファイル内のリンクの数(絶対URIを持っている場合にも、gutenberg.org/files/1.zipgutenberg.org/files/2.zipを」、どのようなパラメータは、このようなテキストファイルを提供するために使用されますWGETへのダウンロードリンクの数として
EugeneP

@rohanbk、あなたは次のように、URL自体を参照してダウンロードされるかを見ることができますgutenberg.org/robot/harvest?filetypes[]=txt&langs[]=enそれは実際にページ付けています。このショーを、が、ページごとのファイル数は一定ではありません。(おそらくサイズに基づいていますか?)したがって、wgetのマニュアルによると再帰しないようにするにはを試してください--level=0。しかし、中止して再起動することを許可することをお勧めします:try --level 9999 --no-clobber、既に持っているファイルをスキップします(まだディスク上の同じフォルダにいると仮定します)。
アルジャン

1
@EugeneP、--input-file マニュアルを参照してください。
アルジャン

@Arjanダウンロードの開始時にオフセットを指定する方法はありますか?何らかの理由でダウンロードが中断され、wgetは最初のページからファイルのチェックを開始しました。私は-cオプションを使用していましたが、まだ。私が与えたoffset=xxxミラー化するURLにはまだそれが最初のページからダウンロードしています。
user13107

7

英語の書籍他の言語のGutenbergコレクション全体を単一のZIMファイルにダウンロードできます。このファイルは高度に圧縮されており、デスクトップとAndroidの両方でKiwixで開くことができます。英語の本は40 GBです。


kiwixのためのLinuxクライアントません
aquagremlin

@aquagremlin Uh?kiwix.org/wiki/Software#GNU.2FLinuxいくつかのディストリビューションにもパッケージ化されています。
ニモ

2
ごめんなさい。スリープ状態ではなく、大きなボタンの下に「他のシステム」が表示されませんでした。
アクアグレムリン

このtxt形式の本ですか?
AD

@ADどういう意味かわかりません。これは、EPUBなどではなく、ZIMにパッケージ化されたHTMLのテキスト+画像です。必要に応じてプレーンテキストを取り出すこともできますが、私の答えは主にフォーマットされた本などを好む人向けです。
Nemo

6

選択した回答は正しいものの、次の2つの問題を引き起こす可能性があります。

  1. ボットとしてダウンロードしていると仮定して、ページネーションへのアクセスを拒否する403エラーが表示される場合があります
  2. 外部ミラーに送信される可能性があります。つまり、wgetコマンドは外部ミラーからファイルをダウンロードする際の再帰的チェックに失敗します。

以下の解決策は、これらの問題を修正します。

wget -H -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en \
--referer="http://www.google.com" \
--user-agent="Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6" \
--header="Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5" \
--header="Accept-Language: en-us,en;q=0.5" \
--header="Accept-Encoding: gzip,deflate" \
--header="Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7" \
--header="Keep-Alive: 300"

リファラーとユーザーエージェント文字列を変更して、ランダム性を少し高めたい場合があります。


5

ftp://mirrors.pglaf.org/mirrors/gutenberg-isoには、いくつかの優れたオプションがあります。

ftp://mirrors.pglaf.org/mirrors/gutenberg-iso/pgdvd042010.isoは、ニーズに十分な8GBファイルです。

ここに詳細情報があります:

https://www.gutenberg.org/wiki/Gutenberg:The_CD_and_DVD_Project#Downloading_Via_FTPには、FTPやBitTorrentなど、アーカイブをダウンロードするためのすべてのオプションがあります。


1
より倫理的なオプションとしてトレントを使用することをお勧めします(3番目のリンクと同じページで):gutenberg.org/wiki/…Project Gutenbergのサーバーへの負担が少ないため、より倫理的です。それはおそらくより速く、より効果的です。さらに、彼らはFTP経由でそれをお勧めします。Linuxを使用している場合、Transmissionはこの目的のための優れたトレントクライアントです。ただし、これにより2010年にサイトに存在していた書籍のみが提供されますが、shadowhorstの答えが機能しない場合に最適な選択肢のようです。
シュル16

3

別のオプションは、http://pgiso.pglaf.org/にある素晴らしいツールです。

  1. IDの範囲を入力します(例:1〜10000)
  2. 目的のファイルの種類を選択します
  3. 含める言語を選択してください
  4. 通知を待つ
  5. ダウンロード

2
私のために働いていない、私は生のPHPしか見ることができません
アーネスト

-4

複雑すぎる上記のプログラミングスキルと知識をすべて使用して、これらすべてのアクションをリンクし、「現在のすべての書籍をダウンロード」と言うシンプルなボタンを作成します。

このサイトにアクセスするユーザーのほとんどは電子書籍コレクターであり、関心のあるトピックに関する特定の書籍を手動でダウンロードすることは、1冊または2冊でも問題ないと思います。しかし、より大きなコレクションを手動で作成するのはドラッグです。それにもかかわらず、彼らが研究のためにそれを必要とするか、単に自分のPCで本の巨大なデジタルライブラリを所有したい場合。これを行うにはコンピューターウィザードでなければならないことに気付いたときに、ほとんどの人はオフになり、サイトから離れます。サイトへのより多くの訪問者。そうすれば誰もが幸せです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.