HTTP経由でWebサイトをリッピングして、画像、HTML、CSSをダウンロードします


22

HTTP経由でサイトをリッピングする必要があります。画像、HTML、CSS、およびJavaScriptをダウンロードし、ファイルシステムに整理する必要があります。

誰もこれを行う方法を知っていますか?


2
あなたは著作権侵害のためにこのソフトウェアを使用するつもりはないことを言及する必要があります。それ以外の場合は、他の誰かのコンテンツをミラーリングして、そこからお金を稼ぐことができると仮定します。
belgariontheking

私たちはかつてクライアントが去りたいと思っていましたが、CMSを放棄して、サイトの静的なHTMLバージョンを取得しました。HTTrackを使用して静的サイトを生成しました。WindowsとUbuntuでうまく機能します。
TRiG

4
@belgariontheking:面白いと思うのは最悪です。また、WinHTTrackを使用して、独自の動的Webサイトの静的HTMLバージョンをダウンロードします。
アンバーフェルール

回答:


40
wget -erobots=off --no-parent --wait=3 --limit-rate=20K -r -p -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" -A htm,html,css,js,json,gif,jpeg,jpg,bmp http://example.com

これはコンソールで実行されます。

これは、サイトを取得し、リクエスト間で3秒待機し、ダウンロード速度を制限してサイトを強制終了しないようにします。リーチ防止メカニズムを使用します。

-Aダウンロードするファイルタイプのリストを示すパラメーターに注意してください。

また、別のタグを使用-D domain1.com,domain2.comして、別のサーバーまたは異なる種類のファイルをホストするものがある場合にダウンロードする一連のドメインを示すこともできます。ファイルを取得しないと、すべてのケースでそれを自動化する安全な方法はありません。

wgetLinuxには一般的にプリインストールされていますが、他のUnixシステム用に簡単にコンパイルするか、Windows用に簡単にダウンロードできます:GNUwin32 WGET

悪ではなく善のためにこれを使用してください。


1
wget -erobots = off --no-parent --wait = 3 --limit-rate = 50K -r -p -U "Mozilla / 4.0(互換性あり; MSIE 7.0; Windows NT 5.1)" -k --directory-prefix "C:\ rip" --page-requisites -A htm、aspx、php、jsp、asp、zip、png、html、css、js、json、gif、jpeg、jpg、bmp domain.com
Chris S

これは「Vanity URL」で機能しますか?ソーシャルネットワーキングサイトに書き込まれたコンテンツ(OK、曲)が心配なので、ローカルにバックアップしたい。サイトは「www.example.com」ですが、ユーザー名が「avi.example.com」のバニティURLがあります。サイト全体をダウンロードするのではなく、自分のコンテンツだけをダウンロードしたい!
アヴィ

Linuxでは、ソースからwgetをインストールできます。たとえば、UbuntuバージョンはCSSを解析しませんが、アップストリームのwgetは解析します。
GDR

16

優れた無料ソリューション:HTTrack

HTTrackは無料(GPL、libre / freeソフトウェア)で使いやすいオフラインブラウザーユーティリティです。

これにより、インターネットからローカルディレクトリにWorld Wide Webサイトをダウンロードし、すべてのディレクトリを再帰的に構築し、サーバーからコンピューターにHTML、画像、およびその他のファイルを取得できます。HTTrackは、元のサイトの相対リンク構造を配置します。ブラウザで「ミラーリングされた」Webサイトのページを開くだけで、オンラインで表示しているように、リンクからリンクへサイトを閲覧できます。HTTrackは、既存のミラーサイトを更新し、中断したダウンロードを再開することもできます。HTTrackは完全に構成可能で、統合されたヘルプシステムを備えています。


7

Linuxシステムでは、「wget」がほとんどこれを行います。

他の回答のいくつかが言及しているように、他のいくつかのプラットフォームにも移植されています。



Linuxなので、たぶんUbuntu VMを作成し、wgetを実行し、ファイルをホストコンピューターに転送します。それはWindowsに移植するよりも速いようです。:)(とにかく、Windowsへの移植はおそらく良い練習です!)
JMD

私は自分のマシンでdebianを実行しています。httpルートドメインだけを指定して、wgetに関連するsub dirs / javascript / css / imagesを取得するように指示できますか?
デイモン2009

#example.comの全コンテンツをダウンロードwget -r -l 0 example.com

うん...またはネイティブWindowsポートを使用するか、またはCygwinを使用して...
Tmdean

2

明らかに、WGetは数回言及されています。私が見つけた最高のUIは

WGetには他にもUIがいくつかありますが、そのうちのいくつかは最悪のUIの質問の候補です


1

FirefoxのScrapbook拡張機能をご覧ください。これは驚くべき仕事であり、firebugと統合されており、必要に応じて保存する前にDOMから要素を削除できます。


1

ほとんどのプラットフォームで利用可能なwgetを使用する必要があります。curlはドキュメントを再帰的に要求しません。これはwgetの大きな強みの1つです。

Linuxの場合:(通常はディストリビューションに含まれています)http://www.gnu.org/software/wget/
のWindows: http://gnuwin32.sourceforge.net/packages/wget.htm
Macの場合:のhttp://www.geekology。 co.za/blog/2009/02/macports-compile-and-install-open-source-software-on-mac-os-x/

ウェブサイトを攻撃していないことを確認してください-リクエスト間に適切な遅延を設定し、サイトの利用規約の範囲内であることを確認してください。

-アダム


実際、私たちがハンマーを打つのはサーバーです。サイトはPHPを介して動的に生成され、CMS / DBは一種の破壊されました。これは複雑な話です。私がここに来たのは開発者です。しかし、私たちは現在すべてをジャンゴで構築しているので、心配する必要はありません。
デイモン2009

1

実際、GWLlosaの投稿で私のコメントをフォローした後、GnuWin32がインストールされていることを思い出しました。それには、wgetのWindowsポートが十分含まれていることを確認しました。

http://sourceforge.net/projects/gnuwin32/

GnuWin32 provides Win32-versions of GNU tools,
or tools with a similar open source licence.
The ports are native ports, that is they rely
only on libraries provided with any 32-bits
MS-Windows operating system, such as
MS-Windows 95 / 98 / 2000 / NT / XP


1

wget --random-wait -r -p -e robots=off -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" --limit-rate=20k -b http://www.example.com

  • -p :パラメータは、画像を含むすべてのファイルを含めるようにwgetに指示します。
  • -e robots=off :サイトrobots.txtルールを無視
  • -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" :ユーザーエージェント文字列
  • --random-wait :ブラックリストへの登録を避ける
  • --limit-rate=20k :ファイルをダウンロードする速度を制限します。
  • -b :ログアウト後もwgetを続行します。

これらは私が使用するパラメーターです。私はまた、追加-c(または--continue物事がうまくいかないと、私は、プロセスを再起動する必要がある場合)オプション。
kub1x


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.