たとえばwww.example.com
、でブログをミラーリングしようとしていwget
ます。
私は次のオプションでwgetを使用しています(シェル変数は正しく置き換えられます)。
wget -m -p -H -k -E -np \
-w 1 \
--random-wait \
--restrict-file-names=windows \
-P $folder \
-Q${quota}m \
-t 3 \
--referer=$url \
-U 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.6) Gecko/20070802 SeaMonkey/1.1.4' \
-e robots=off \
-D $domains
-- $url
ブログには、他のドメインにある画像が含まれています。
-p
オプション(リンクされたページアセットのダウンロード)を指定したにもかかわらず、オプションで各ドメインを明示的に指定しない限り、これらの画像はダウンロードされません-D
。
-D
オプションを省略した場合、wgetは外部のすべてのリンクをたどりwww.example.com
、インターネット全体をダウンロードします。
各ドメインを明示的に指定しなくても、同じドメインにあるかどうかに関係なく、wget
下のすべてのリンクをたどってwww.example.com
各ページの必要なアセットをダウンロードすることは可能ですか?
(マイナスページの資産を)あなたのブログを仮定すると、両方削除してみてください、複数のドメインにまたがるされていない
—
blubberdiblub
-D $domains
など-H
。なけれ-H
ば、あなたのドメイン内にとどまるが、それでも彼らは異なるドメインにある場合でも、直接ページ資産を取得する必要があります。
wget -N -E -H -k -K -p
最初に使用することになり、不足しているリンクされた画像を取得するスクリプトを思いつきました。