基本的に、Wgetを使用してサイト全体をクロールしますが、他のアセット(画像、CSS、JSなど)をダウンロードしないようにする必要があります。HTMLファイルのみが必要です。
私が試したコマンドは次のとおりです。
wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -E -e robots=off -U "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.102 Safari/537.36" -A html --domain=www.example.com http://www.example.com
このサイトは、フラットPHPとCMSのハイブリッドです。だから、HTML "ファイルは、"可能性があり/path/to/page
、/path/to/page/
、/path/to/page.php
、または/path/to/page.html
。
私も含めました-R js,css
が、それでもファイルをダウンロードし、それらを拒否します(帯域幅、CPU、およびサーバー負荷の無意味な浪費です!)。
2
これまでに試したコマンドは何ですか?ファイルの命名に一貫性がある場合は、-Rフラグを使用できるはずです。または、-ignore-tagsフラグを使用して、scriptタグとimgタグを無視することもできます。
—
アーニー14年
--accept = htmlを使用してみましたが、CSSファイルをダウンロードしてから削除します。それらがダウンロードされるのを防ぎたいです。ただし、ヘッダーのリクエストは問題
—
ネイサンJB 14年
Length: 558 [text/css]
ありません。たとえば、不要なファイルに気づきます。ヘッダーtext/html
が返らない場合にリクエストを停止できれば、私は大喜びします。