Webサイト全体をダウンロードするにはどうすればよいですか?


351

Webサイトからすべてのページをダウンロードするにはどうすればよいですか?

どのプラットフォームでも問題ありません。



@tnorthcutt、私も驚いています。私がひどく間違って覚えていない場合、私のWgetの答えは以前は受け入れられていたもので、これは落ち着いたもののように見えました。私は文句を言っているわけではありません—突然、注目が新たになり、報奨金の価値以上のものを私に与えてくれました。:P
ジョニック

IDMを試しましたか?superuser.com/questions/14403 / ...私の投稿は埋まっています。IDMに欠けているものは何ですか?
レーザー

5
@joe:欠けている機能が何であるかをあなたが詳細を与えるだろう場合に役立つかもしれない...
Ilari Kajaste

browse-offline.comはあなたが...それをオフラインで閲覧することができますので、ウェブサイトの完全なツリーをダウンロードすることができます
Menelaos Vergis

回答:


334

HTTRACKは、サイト全体のコンテンツをコピーするチャンピオンのように機能します。このツールは、アクティブなコードコンテンツを含むWebサイトをオフラインで動作させるために必要な要素を取得することもできます。オフラインで複製できるものには驚かされます。

このプログラムは、必要なすべてを行います。

ハッピーハンティング!


7
これを長年使用しています-強くお勧めします。
アンバーフェルール

4
しかし、これはサーバー上で実行される実際のASPコードをコピーしますか?
Taptronic

8
@Optimal Solutions:いいえ、それは不可能です。サーバーまたはそのソースコードにアクセスする必要があります。
サーシャチェディゴフ

2
承認のあるサイトでhttrackとwgetの両方を試した後、wgetを優先しなければなりません。これらの場合、httrackを動作させることができませんでした。
レオ

1
認証のオプションは何ですか?
ビンセントマシュー

272

Wgetは、この種のタスクのための古典的なコマンドラインツールです。ほとんどのUnix / Linuxシステムに付属しており、Windowsでも入手できます。Macでは、Homebrewが最も簡単にインストールできます(brew install wget)。

あなたは次のようなことをするでしょう:

wget -r --no-parent http://site.com/songs/

詳細については、Wgetマニュアルとその例を参照してください。


12
これ以上の答えはありません
-wget

6
--no-parentを含めるための+1。-rの代わりに--mirrorを必ず使用してください。他のサーバーへのリンクをたどらないように、-L /-relativeを含めることもできます。
いんちきのキホーテ

2
私もhttrack.comを求めました-このcmdラインツールはASP コードを取得しますか、それとも単にHTMLのレンダリングを取得しますか?私はこれを試さなければなりません。これを行うと、開発者にとって少し心配になるかもしれません
...-Taptronic

6
@optimal、もちろんHTML出力-サーバーがひどく誤って設定されている場合にのみコードを取得します
-Jonik

2
残念ながらそれは私にとってはうまくいきません-cssファイルへのリンクに問題があり、それらは相対に変更されません。つまり、ファイルで次のようなものを見ることができます:<link rel = "stylesheet" type = "text / css" href = "/ static / css / reset.css" media = "screen" />これは、特定のディレクトリがルートであると考えるようにFirefoxをだまそうとしない限り、ローカルではうまく機能しません。
12

148

wgetを使用します。

wget -m -p -E -k www.example.com

オプションの説明:

-m, --mirror            Turns on recursion and time-stamping, sets infinite 
                          recursion depth, and keeps FTP directory listings.
-p, --page-requisites   Get all images, etc. needed to display HTML page.
-E, --adjust-extension  Save HTML/CSS files with .html/.css extensions.
-k, --convert-links     Make links in downloaded HTML point to local files.

8
提案されたオプションの説明を提供するための+1。(私--mirrorはあまり自明ではないと思いますが、マニュアルページから:このオプションは再帰とタイムスタンプをオンにし、無限の再帰の深さを設定し、FTPディレクトリのリストを保持します。現在は-r -Nと同等です- l inf --no-remove-listing ")
Ilari Kajaste

2
ミラーリングするドメインの名前を持つフォルダーにすべてをダウンロードしたくない場合は、独自のフォルダーを作成し、-nHオプションを使用します(ホスト部分はスキップされます)。
ラファエルブガジュスキー

2
認証が必要な場合はどうですか?
ヴァル

4
私はあなたwget --mirror -p --html-extension --convert-links www.example.comを使ってみました、それはちょうどインデックスをダウンロードしました。-rサイト全体をダウンロードする必要があると思います。
エリックブロット

4
トラフィック/あまりにも多くのリクエストにサイトを殺す気になる方のために、使用-w seconds(要求、または間seccondsの数を待つために--limit-rate=amount使用する最大帯域幅を指定するには、しばらくのダウンロード
ヴラッド・ardelean


8

Internet Download Managerには、多くのオプションを備えたSite Grabberユーティリティがあります。これにより、必要なWebサイトを希望どおりに完全にダウンロードできます。

  1. ダウンロードするページ/ファイルのサイズに制限を設定できます

  2. 訪問する支店サイトの数を設定できます

  3. スクリプト/ポップアップ/複製の動作を変更できます

  4. ドメインを指定できます。そのドメインの下でのみ、必要な設定を満たすすべてのページ/ファイルがダウンロードされます

  5. リンクは、閲覧のためにオフラインリンクに変換できます。

  6. 上記の設定を選択できるテンプレートがあります

ここに画像の説明を入力してください

ただし、このソフトウェアは無料ではありません。ニーズに合っているかどうかを確認するには、評価版を使用してください。



5

ブラウザが使用するオンラインバッファリングに対処します...

通常、ほとんどのブラウザはブラウジングキャッシュを使用して、ウェブサイトからダウンロードしたファイルを少しの間保持するため、静的な画像やコンテンツを何度もダウンロードする必要はありません。これにより、状況によっては速度が大幅に向上します。一般的に、ほとんどのブラウザキャッシュは固定サイズに制限されており、その制限に達すると、キャッシュ内の最も古いファイルが削除されます。

ISPは、ESPNやCNNなどの一般的にアクセスされるWebサイトのコピーを保持するキャッシングサーバーを持つ傾向があります。これにより、ネットワーク上の誰かがそこに行くたびにこれらのサイトにアクセスする手間が省けます。これにより、ISPへの外部サイトへの重複したリクエストの量を大幅に節約できます。




4

私はこれを長年行っていませんが、まだいくつかのユーティリティがあります。Web Snakeを試してみてください。何年も前に使ったと思います。あなたの質問を読んだとき、私はすぐにその名前を思い出しました。

Stecyに同意します。サイトを叩かないでください。ひどい。


3

BackStreet Browserをお試しください。

無料の強力なオフラインブラウザです。高速なマルチスレッドWebサイトのダウンロードおよび表示プログラム。複数のサーバーリクエストを同時に行うことにより、BackStreet BrowserはWebサイト全体またはHTML、グラフィック、Javaアプレット、サウンド、その他のユーザー定義可能なファイルを含むサイトの一部をすばやくダウンロードし、すべてのファイルをネイティブ形式でハードドライブに保存します。または、圧縮されたZIPファイルとして、オフラインで表示します。

ここに画像の説明を入力してください


3

Teleport Proは、ターゲットが何であれ、すべてのファイルをコピーダウンする別の無料のソリューションです(また、コンテンツのページをさらに取得できる有料版もあります)。


3

DownThemAllは、1回のクリックで特定のWebページのすべてのコンテンツ(オーディオファイルやビデオファイルなど)をダウンロードするFirefoxアドオンです。これはサイト全体をダウンロードするわけではありませんが、これは質問が探していたようなものかもしれません。


リンク(HTML)およびメディア(画像)のみをダウンロードできます。
アイン

3

LinuxおよびOS Xの場合:Webサイト全体をWARCファイルにアーカイブするグラブサイトを作成しました。これらのWARCファイルができます閲覧または抽出されました。grab-siteでは、正規表現を使用してスキップするURLを制御できます。これらは、クロールの実行中に変更できます。また、ジャンクURLを無視するためのデフォルトの広範なセットが付属しています。

クロールを監視するためのWebダッシュボードと、特定のサイズを超えるビデオコンテンツまたは応答をスキップするための追加オプションがあります。



0

由緒あるFreeDownloadManager.orgにもこの機能があります。

無料ダウンロードマネージャーには、Site ExplorerとSite Spiderの 2つの形式の2つの形式があります

サイトエクスプローラー
サイトエクスプローラーを使用すると、Webサイトのフォルダー構造を表示し、必要なファイルまたはフォルダーを簡単にダウンロードできます。
HTML Spider
Webページ全体またはWebサイト全体をHTML Spiderでダウンロードできます。このツールは、指定された拡張子を持つファイルのみをダウンロードするように調整できます。

Site Explorerは、サイト全体をダウンロードしようとする前に、どのフォルダーを含める/除外するかを確認するのに役立ちます。特に、ダウンロードしたくないフォーラム全体がサイトに隠れている場合などです。



-3

Firefoxはネイティブに実行できます(少なくともFF 42はできます)。「ページを保存」を使用するだけです

ここに画像の説明を入力してください


6
違う!質問は、Webサイト全体を保存する方法を尋ねます。Firefoxはそれを行うことができません。

2
あなたの方法は、それが1ページのサイトである場合にのみ機能しますが、サイトに699ページがある場合はどうですか?非常に疲れるだろう...
キダム

-4

Google Chromeはデスクトップデバイスでこれを行うことができると思います。ブラウザメニューに移動して[Webページを保存]をクリックするだけです。

また、pocketのようなサービスは実際にWebサイトを保存しない可能性があるため、リンクが腐敗しやすいことに注意してください。

最後に、ウェブサイトのコンテンツをコピーすると、該当する場合、著作権を侵害する可能性があることに注意してください。


3
ブラウザのWeb ページは、Web サイトの多くの1つにすぎません。
アルジャン

@Arjan私のオプションは労働集約的だと思います。1ページだけを保存したい人が多いのではないかと思うので、そのためにここに来る人にとっては、この答えの方が良いかもしれません。
ジグガンジャー
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.