HTTP経由でサイトをリッピングする必要があります。画像、HTML、CSS、およびJavaScriptをダウンロードし、ファイルシステムに整理する必要があります。
誰もこれを行う方法を知っていますか?
HTTP経由でサイトをリッピングする必要があります。画像、HTML、CSS、およびJavaScriptをダウンロードし、ファイルシステムに整理する必要があります。
誰もこれを行う方法を知っていますか?
回答:
wget -erobots=off --no-parent --wait=3 --limit-rate=20K -r -p -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" -A htm,html,css,js,json,gif,jpeg,jpg,bmp http://example.com
これはコンソールで実行されます。
これは、サイトを取得し、リクエスト間で3秒待機し、ダウンロード速度を制限してサイトを強制終了しないようにします。リーチ防止メカニズムを使用します。
-A
ダウンロードするファイルタイプのリストを示すパラメーターに注意してください。
また、別のタグを使用-D domain1.com,domain2.com
して、別のサーバーまたは異なる種類のファイルをホストするものがある場合にダウンロードする一連のドメインを示すこともできます。ファイルを取得しないと、すべてのケースでそれを自動化する安全な方法はありません。
wget
Linuxには一般的にプリインストールされていますが、他のUnixシステム用に簡単にコンパイルするか、Windows用に簡単にダウンロードできます:GNUwin32 WGET
悪ではなく善のためにこれを使用してください。
優れた無料ソリューション:HTTrack
HTTrackは無料(GPL、libre / freeソフトウェア)で使いやすいオフラインブラウザーユーティリティです。
これにより、インターネットからローカルディレクトリにWorld Wide Webサイトをダウンロードし、すべてのディレクトリを再帰的に構築し、サーバーからコンピューターにHTML、画像、およびその他のファイルを取得できます。HTTrackは、元のサイトの相対リンク構造を配置します。ブラウザで「ミラーリングされた」Webサイトのページを開くだけで、オンラインで表示しているように、リンクからリンクへサイトを閲覧できます。HTTrackは、既存のミラーサイトを更新し、中断したダウンロードを再開することもできます。HTTrackは完全に構成可能で、統合されたヘルプシステムを備えています。
Linuxシステムでは、「wget」がほとんどこれを行います。
他の回答のいくつかが言及しているように、他のいくつかのプラットフォームにも移植されています。
ほとんどのプラットフォームで利用可能なwgetを使用する必要があります。curlはドキュメントを再帰的に要求しません。これはwgetの大きな強みの1つです。
Linuxの場合:(通常はディストリビューションに含まれています)http://www.gnu.org/software/wget/
のWindows: http://gnuwin32.sourceforge.net/packages/wget.htm
Macの場合:のhttp://www.geekology。 co.za/blog/2009/02/macports-compile-and-install-open-source-software-on-mac-os-x/
ウェブサイトを攻撃していないことを確認してください-リクエスト間に適切な遅延を設定し、サイトの利用規約の範囲内であることを確認してください。
-アダム
実際、GWLlosaの投稿で私のコメントをフォローした後、GnuWin32がインストールされていることを思い出しました。それには、wgetのWindowsポートが十分含まれていることを確認しました。
http://sourceforge.net/projects/gnuwin32/
GnuWin32 provides Win32-versions of GNU tools,
or tools with a similar open source licence.
The ports are native ports, that is they rely
only on libraries provided with any 32-bits
MS-Windows operating system, such as
MS-Windows 95 / 98 / 2000 / NT / XP
私はこれを数年前に使用し、うまく機能しました。Windowsのみ。以前はアドウェアでしたが、もはやそうではなかったようです:
wget --random-wait -r -p -e robots=off -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" --limit-rate=20k -b http://www.example.com
-p
:パラメータは、画像を含むすべてのファイルを含めるようにwgetに指示します。-e robots=off
:サイトrobots.txtルールを無視-U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)"
:ユーザーエージェント文字列--random-wait
:ブラックリストへの登録を避ける--limit-rate=20k
:ファイルをダウンロードする速度を制限します。-b
:ログアウト後もwgetを続行します。
-c
(または--continue
物事がうまくいかないと、私は、プロセスを再起動する必要がある場合)オプション。
IDMサイトグラバーが最適なソリューションだと思います。Teleportproもあります
無料のダウンロードマネージャーは、完全なWebサイトもダウンロードできます。
Windowsのみだと思います。