回答:
wgetコマンドラインユーティリティを使用して、必要な処理を実行できます。オプションを指定すると、-r
Webページが再帰的にダウンロードされます。例えば:
wget -r http://mat.gsia.cmu.edu/orclass/integer/integer.html
これにより、そのWebページとリンク先のWebページがダウンロードされます。また、特定のレベル数だけ再帰するようにすることもできます。これを行うには、単に-r
数を指定するだけです。そのような:
wget -r 5 http://mat.gsia.cmu.edu/orclass/integer/integer.html
このスレッドは現在は古いですが、他のスレッドはそれを見るかもしれません。Wuffers、私を正しい方向に向けてくれてありがとうウェブサイトの。-rオプションを使用して再帰し、-kオプションを使用してローカルリンクにパッチを適用し、-Hオプションを使用して元のドメイン以外のドメインに移動し、-Dオプションを使用して移動先ドメインを制限し、-lオプションを使用して再帰の深さ、および-pオプションを使用して、トラバーサルの葉に正しく表示するために必要なすべてのものがあることを確認します。たとえば、次のコードはページとすぐにリンクするすべてのものをダウンロードし、ローカルで閲覧可能にし、
wget -r -l 1 -p -k -H -D domain.com,relateddomain.com http://domain.com/page/in/domain
上記のコマンドに似たコマンドを使用して、メガバイトの外部データをダウンロードすることなく、外部リンクを含むウィキページのチャンクをローカルディスクにダウンロードすることができました。これで、ブラウザでルートページを開くと、インターネットに接続せずにツリー内を移動できます。唯一のイライラは、ルートページがサブディレクトリに埋もれていることであり、表示を便利にするためにトップレベルのリダイレクトページを作成する必要がありました。正しくするには、試行錯誤が必要になる場合があります。wgetのmanページを読んで実験してください。
無料のhttrackのようなWebサイトクローラーを使用できます。
ウェブサイトから。
[httrack]を使用すると、World Wide Webサイトをインターネットからローカルディレクトリにダウンロードし、すべてのディレクトリを再帰的に構築し、HTML、画像、およびその他のファイルをサーバーからコンピューターに取得できます。HTTrackは、元のサイトの相対リンク構造を配置します。ブラウザで「ミラーリングされた」Webサイトのページを開くだけで、オンラインで閲覧しているように、リンクからリンクへサイトを閲覧できます。