Webサイトを再帰的にクロールし、特定の種類の画像のみをダウンロードするようにwgetにどのように指示しますか?
これを使用してサイトをクロールし、Jpeg画像のみをダウンロードしてみました。
wget --no-parent --wait=10 --limit-rate=100K --recursive --accept=jpg,jpeg --no-directories http://somedomain/images/page1.html
ただし、page1.htmlにはサブページへの数百のリンクが含まれていますが、サブページには画像への直接リンクがありますが、wgetは "subpage13.htmlを削除する必要があるため削除します"などのメッセージを報告し、直接リンクされているものがないため、画像をダウンロードしません。開始ページから。
これは、-acceptがクロールとコンテンツのダウンロードの両方を指示するために使用されているのに対し、コンテンツのダウンロードを指示するためだけに使用したいためだと思います。wgetにすべてのリンクをクロールさせ、*。jpegなどの特定の拡張子を持つファイルのみをダウンロードさせるにはどうすればよいですか?
編集:また、一部のページは動的で、CGIスクリプト(img.cgi?fo9s0f989wefw90eなど)を介して生成されます。受け入れリストにcgiを追加しても(例--accept = jpg、jpeg、html、cgi)、これらは常に拒否されます。これを回避する方法はありますか?