Webサイト全体をダウンロードするにはどうすればよいですか?


81

(サブサイトを含む)Webサイト全体をダウンロードしたい。そのためのツールはありますか?


1
正確に何を達成しようとしていますか?質問のタイトルと内容は関連しておらず、内容は明確ではありません。
RolandiXor

注:リンクをたどる(たとえば、--convert-linkswget で使用する)だけでは、フォームを送信することでのみ明らかになるサイトなどは明らかになりません。
スティーブン

回答:


140

ここから例10を試してください:

wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL
  • –mirror :ミラーリングに適したオプションをオンにします。

  • -p :特定のHTMLページを適切に表示するために必要なすべてのファイルをダウンロードします。

  • --convert-links :ダウンロード後、ドキュメント内のリンクをローカル表示用に変換します。

  • -P ./LOCAL-DIR :指定したディレクトリにすべてのファイルとディレクトリを保存します。

特定のページのみをダウンロードする方法はありますか(たとえば、複数のhtml文書にまたがる記事の複数の部分)。
-don.joey

@Privateはい。おそらく、Pythonまたは何かを使用してページを取得する方が簡単です(レイアウト/ URLによって異なります)。ページのURLが絶えず増加している数によって異なる場合、またはページのリストがある場合は、bashスクリプトでwgetを使用できます。
Vreality

2
--wait=secondsサイトにもっと親しみたい場合は、引数を使用することを検討してください。検索の間に指定された秒数だけ待機します。
ベラク14

上記は機能しますが、joomlaの場合、パラメーター化されたURLはローカルにリンクされていないファイルを作成します。一つはあるのwget -m -k -K -E私のために働いたyour.domain.com :ここからvaasa.hacklab.fi/2013/11/28/...
M.Hefny

1
また--no-parentここから取られ「親ディレクトリに昇ってはいけない」。
ダニエル

38

オフラインモードでWebサイトをコピーするHTTrack for Linux

httrackはあなたが探しているツールです。

HTTrackを使用すると、インターネットからローカルディレクトリにWorld Wide Webサイトをダウンロードし、すべてのディレクトリを再帰的に構築し、HTML、画像、およびその他のファイルをサーバーからコンピューターに取得できます。HTTrackは、元のサイトの相対リンク構造を配置します。


7

ではwget、あなたが全体のウェブサイトをダウンロードすることができ、あなたが使用する必要がある-rためにスイッチを再帰的にダウンロード。例えば、

wget -r http://www.google.com

6

WEBHTTRACK WEBSITE COPIERは、ウェブサイト全体をハードディスクにダウンロードしてオフラインで閲覧できる便利なツールです。ubuntuソフトウェアセンターを起動し、検索ボックスに引用符なしで「webhttrack website copier」と入力します。ソフトウェアセンターから選択してシステムにダウンロードします。laucherまたはスタートメニューのいずれかからwebHTTrackを開始します。そこから、サイトのダウンロードに最適なツールをお楽しみいただけます


3

サブドメイン、つまりサブサイトについては知りませんが、wgetを使用して完全なサイトを取得できます。見てみましょう。このスーパーユーザの質問を-D domain1.com,domain2.com単一のスクリプトで異なるドメインをダウンロードするために使用できると書かれています。このオプションを使用してサブドメインをダウンロードできると思います。-D site1.somesite.com,site2.somesite.com


1

私はBurpを使用しています。スパイダーツールはwgetよりもはるかにインテリジェントであり、必要に応じてセクションを回避するように構成できます。Burp Suite自体はテストに役立つ強力なツールセットですが、スパイダーツールは非常に効果的です。


1
Burp Windowsのみではありませんか?Burpのクローズドソースライセンス契約も非常に重いです。価格タグ299.00ドルは言うまでもありません:
Katアムステルダム

ライセンスから:警告:BURP SUITE FREE EDITIONは、セキュリティの欠陥をテストするように設計されており、その機能の性質によりターゲットシステムに損害を与える可能性があります。セキュリティ欠陥のテストは、いくつかの脆弱なターゲットで問題を引き起こす可能性のある非標準的な方法でターゲットと相互作用することを本質的に伴います。ソフトウェアを使用する際は、注意を払う必要があります。使用する前にすべてのドキュメントを読み、使用する前にターゲットシステムをバックアップする必要があります。 。
キャットアムステルダム

それが何をするかについては、値札は驚くほど安いです-幅広いセキュリティテストのために購入することをお勧めします。:-)いくつかの事例ではAppScanのより安全な-そして、あなたが望むとおりに正確にテストするためにそれを設定することは非常に簡単です
ロリー・オールソップ

1
@KatAmsterdam特に互換性の質問に関して:ウィキペディアよると、Burp SuiteはJavaアプリケーションであるため、Ubuntuで正常に動作するはずです。
エリアカガン

Kat-さまざまな種類のLinuxで問題なく動作します。ライセンスの警告は、セキュリティ評価に使用できるツールと同じです。
ロリーアルソップ


0

速度が重要な場合(およびサーバーの状態が重要でない場合)、wgetのように機能しますが、複数のページを並行してダウンロードできるpufを試すことができます。しかし、それは完成品ではなく、保守されておらず、恐ろしく文書化されていません。それでも、たくさんの小さなファイルを含むWebサイトをダウンロードするには、これが適切なオプションです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.