別のドメインでwgetダウンロードページリソースを作成する


16

リソースが別のドメイン(ドメインB)にある場合、wgetを使用してサイト全体(ドメインA)をダウンロードするにはどうすればよいですか?
私はもう試した:
wget -r --level=inf -p -k -E --domains=domainA,domainB http://www.domainA


うわー!結局誰もいませんか?
パルサ

コマンドが機能しない理由は--domains、単独で使用してもオン--span-hostsにならないためです。追加する--span-hostsことで問題は解決します。:|
パルサ14年

回答:


14
wget --recursive --level=inf --page-requisites --convert-links --html-extension \
     --span-hosts=domainA,domainB url-on-domainA

更新:過去に上記のコマンドが機能していたことを覚えています(2010年で、 当時はWindows用のGNUツールを使用していました)。ただし、今日使用する場合は、次のように変更する必要がありました。

wget --recursive --level=inf --page-requisites --convert-links \
     --adjust-extension --span-hosts --domains=domainA,domainB domainA

その短縮形は次のとおりです。 wget -rEDpkH -l inf domainA,domainB domainA

  • -r = --recursive
  • -l <depth> = --level=<depth>
  • -E = --adjust-extension
  • -p = --page-requisites
  • -K = --backup-converted
  • -k = --convert-links
  • -D <domain-list> = --domain-list=<domain-list>
  • -H = --span-hosts
  • -np = --no-parent
  • -U <agent-string> = --user-agent=<agent-string>

GNU Wgetマニュアル:https : //www.gnu.org/software/wget/manual/wget.html


取得:wget:--span-hosts:無効なブール値domainA,domainB'; use on 'または' off '。オンに変更した後、機能しません。
マシューフラッシェン

@MatthewFlaschenここで書いたことは私のために働いた。使用した引数を提供できますか?
パルサ14

以前に実行した正確なコマンドがありません。しかし、私は同じ問題を抱えています: wget --recursive --level=inf --page-requisites --convert-links --html-extension --span-hosts=example.org,iana.org example.org DebianでGNU Wget 1.13.4を使用しています。
マシューフラッシェン14

3
試してみてください--span-hosts --domains=example.org,iana.org-私--span-hostsはブール値である必要があると思う、それから--domainsどのホストをスパンするかを指定するために使用します。
エリックミル14年

Konklone、-span-hostsは1.12以降のブール値であり、私はそれを知りませんでした。@MatthewFlaschen、答えを更新しました。ところで、Windows用のGNUツールを使用している場合、1.11以前でも引き続き動作します。
パルサ14年

1

wget --recursive --level = inf --page-requisites --convert-links --html-extension -rH -DdomainA、domainB domainA


これは部分的に機能します。ただし、何らかの理由で、(最後の)URLがリダイレクトの場合は機能しないようです。また、ページの必要条件だけでなく、リンクもダウンロードします。また、-rと--recursiveは同じです。
マシューフラッシェン


-1

HTTrackの使用を検討してください。wget以外のドメインのコンテンツをクロールする場合、より多くのオプションがあります。--span-hosts、-domains、および--acceptを指定してwgetを使用すると、私のニーズには不十分ですが、HTTrackはジョブを実行しました。他のドメインでリダイレクトの制限を設定すると、非常に役立ちました。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.