wget
ウェブサイトからすべてのファイルを使用して取得する方法は?
HTML、PHP、ASPなどのWebページファイルを除くすべてのファイルが必要です。
wget --spider
に、常に最初に確認し、常に-w 1
(またはそれ以上-w 5
)追加してください。
wget
ウェブサイトからすべてのファイルを使用して取得する方法は?
HTML、PHP、ASPなどのWebページファイルを除くすべてのファイルが必要です。
wget --spider
に、常に最初に確認し、常に-w 1
(またはそれ以上-w 5
)追加してください。
回答:
特定のファイル拡張子をフィルタリングするには:
wget -A pdf,jpg -m -p -E -k -K -np http://site/path/
または、長いオプション名を使用する場合:
wget --accept pdf,jpg --mirror --page-requisites --adjust-extension --convert-links --backup-converted --no-parent http://site/path/
これは、サイトをミラーリングしますが、なしのファイルjpg
やpdf
拡張子は自動的に削除されます。
--accept
は大文字と小文字を区別すると思うので、あなたはそうしなければならないでしょう--accept pdf,jpg,PDF,JPG
wget
が、あなたが指定する必要--progress
のタイプを、例えば--progress=dot
--ignore-case
フラグを使用して、--accept
大文字と小文字を区別しないようにすることもできます。
これは私のためにウェブサイト全体をダウンロードしました:
wget --no-clobber --convert-links --random-wait -r -p -E -e robots=off -U mozilla http://site/path/
-e robots=off
!これでようやく問題が解決しました!:)ありがとう
--random-wait
オプションは天才です;)
wget -m -p -E -k -K -np http://site/path/
マニュアルページはそれらのオプションが何をするかを教えてくれます。
wget
インデックスページからのファイルへのリンクがない場合、リンクのみをたどります。ファイルのwget
存在を認識しないため、ファイルをダウンロードしません。すなわち。すべてのファイルがWebページまたはディレクトリインデックスにリンクされている場合に役立ちます。
Omekaのテーマページからリンクされたzipファイルをダウンロードしようとしていた-かなり似たようなタスク。これは私のために働きました:
wget -A zip -r -l 1 -nd http://omeka.org/add-ons/themes/
-A
:zipファイルのみを受け入れる-r
:再帰-l 1
:1レベルの深さ(つまり、このページから直接リンクされているファイルのみ)-nd
:ディレクトリ構造を作成せず、すべてのファイルをこのディレクトリにダウンロードしてください。すべての答えは-k
、-K
、-E
などのオプションは、おそらく実際に、局所構造を作るためのHTMLページを書き換えるためのリネームなどもののような質問を理解していない.php
ファイルをというように。関係ありません。
文字通り等を除く すべてのファイルを取得するには.html
:
wget -R html,htm,php,asp,jsp,js,py,css -r -l 1 -nd http://yoursite.com
-A
大文字と小文字が区別されるので、そうする必要があると思います-A zip,ZIP
あなたは試すことができます:
wget --user-agent=Mozilla --content-disposition --mirror --convert-links -E -K -p http://example.com/
また、以下を追加できます。
-A pdf,ps,djvu,tex,doc,docx,xls,xlsx,gz,ppt,mp4,avi,zip,rar
特定の拡張子を受け入れる、または特定の拡張子のみを拒否するには:
-R html,htm,asp,php
または特定の領域を除外するには:
-X "search*,forum*"
ロボット(検索エンジンなど)でファイルが無視される場合は、以下も追加する必要があります。 -e robots=off
wget -m -A * -pk -e robots=off www.mysite.com/
これはすべてのタイプのファイルをローカルにダウンロードし、htmlファイルからそれらをポイントし、ロボットファイルを無視します