回答:
私たちのサイトへのロボットアクセスは、他のすべてが失敗した場合、最後のリソースとして残しておく必要があります。また、Project GutenbergのWebサイトは著作権で保護されています。
ただし、希望があります。
より良い選択肢
- Project Gutenberg Webサイトのオフラインバージョンを入手してください。
- Project Gutenbergの電子書籍ファイルをすべて入手してください。
- Project Gutenbergカタログデータを取得します。
そして:
[...]ロボットをhttp://www.gutenberg.org/robot/harvestに向けることで、すべての電子書籍を圧縮ファイルで取得できます 。
[...] zipファイルを展開すると、さらに70,000個のファイルが生成されます。
これは、次を使用してすべてのファイルを取得する方法の例です
wget
。wget -w 2 -m http://www.gutenberg.org/robot/harvest
[...]いくつかのタイプのファイルのみが必要な場合:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt
[...]特定の言語のファイルのみが必要な場合:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?langs[]=de
だから、私は質問します:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en
--level=0
。しかし、中止して再起動することを許可することをお勧めします:try --level 9999 --no-clobber
、既に持っているファイルをスキップします(まだディスク上の同じフォルダにいると仮定します)。
-c
オプションを使用していましたが、まだ。私が与えたoffset=xxx
ミラー化するURLにはまだそれが最初のページからダウンロードしています。
英語の書籍と他の言語のGutenbergコレクション全体を単一のZIMファイルにダウンロードできます。このファイルは高度に圧縮されており、デスクトップとAndroidの両方でKiwixで開くことができます。英語の本は40 GBです。
選択した回答は正しいものの、次の2つの問題を引き起こす可能性があります。
wget
コマンドは外部ミラーからファイルをダウンロードする際の再帰的チェックに失敗します。以下の解決策は、これらの問題を修正します。
wget -H -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en \
--referer="http://www.google.com" \
--user-agent="Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6" \
--header="Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5" \
--header="Accept-Language: en-us,en;q=0.5" \
--header="Accept-Encoding: gzip,deflate" \
--header="Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7" \
--header="Keep-Alive: 300"
リファラーとユーザーエージェント文字列を変更して、ランダム性を少し高めたい場合があります。
ftp://mirrors.pglaf.org/mirrors/gutenberg-isoには、いくつかの優れたオプションがあります。
ftp://mirrors.pglaf.org/mirrors/gutenberg-iso/pgdvd042010.isoは、ニーズに十分な8GBファイルです。
ここに詳細情報があります:
https://www.gutenberg.org/wiki/Gutenberg:The_CD_and_DVD_Project#Downloading_Via_FTPには、FTPやBitTorrentなど、アーカイブをダウンロードするためのすべてのオプションがあります。
別のオプションは、http://pgiso.pglaf.org/にある素晴らしいツールです。
複雑すぎる上記のプログラミングスキルと知識をすべて使用して、これらすべてのアクションをリンクし、「現在のすべての書籍をダウンロード」と言うシンプルなボタンを作成します。
このサイトにアクセスするユーザーのほとんどは電子書籍コレクターであり、関心のあるトピックに関する特定の書籍を手動でダウンロードすることは、1冊または2冊でも問題ないと思います。しかし、より大きなコレクションを手動で作成するのはドラッグです。それにもかかわらず、彼らが研究のためにそれを必要とするか、単に自分のPCで本の巨大なデジタルライブラリを所有したい場合。これを行うにはコンピューターウィザードでなければならないことに気付いたときに、ほとんどの人はオフになり、サイトから離れます。サイトへのより多くの訪問者。そうすれば誰もが幸せです。