wgetでブログをミラーリングする


9

たとえばwww.example.com、でブログをミラーリングしようとしていwgetます。

私は次のオプションでwgetを使用しています(シェル変数は正しく置き換えられます)。

wget -m -p -H -k -E -np \
    -w 1 \
    --random-wait \
    --restrict-file-names=windows \
    -P $folder \
    -Q${quota}m \
    -t 3 \
    --referer=$url \
    -U 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.6) Gecko/20070802 SeaMonkey/1.1.4' \
    -e robots=off \
    -D $domains
    -- $url

ブログには、他のドメインにある画像が含まれています。

-pオプション(リンクされたページアセットのダウンロード)を指定したにもかかわらず、オプションで各ドメインを明示的に指定しない限り、これらの画像はダウンロードされません-D

-Dオプションを省略した場合、wgetは外部のすべてのリンクをたどりwww.example.com、インターネット全体をダウンロードします。

各ドメインを明示的に指定しなくても、同じドメインにあるかどうかに関係なく、wget下のすべてのリンクをたどってwww.example.com各ページの必要なアセットをダウンロードすることは可能ですか?


これについても良い答えを見つけたいです。私は同じ状況に遭遇し、それを実行する単一のwget呼び出しを見つけることができませんでした。私はwget -N -E -H -k -K -p最初に使用することになり、不足しているリンクされた画像を取得するスクリプトを思いつきました。
レモンスクイーズ2014年

5
よると、この1httrackは、このためのキラーです。次回はwgetの代わりに試してみます。
レモンスクイーズ2014年

(マイナスページの資産を)あなたのブログを仮定すると、両方削除してみてください、複数のドメインにまたがるされていない-D $domainsなど-H。なけれ-Hば、あなたのドメイン内にとどまるが、それでも彼らは異なるドメインにある場合でも、直接ページ資産を取得する必要があります。
blubberdiblub

回答:


1

いいえ、唯一の方法は、-Dまたは--domains = [domain list]を使用して、追跡するドメインを指定することです(カンマ区切りリストの形式)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.