Wgetを使用してすべてのフォルダー、サブフォルダー、およびファイルをダウンロードする


20

私はWgetを使用していますが、問題に遭遇しました。サイトがあり、そのサイト内にいくつかのフォルダーとサブフォルダーがあります。各フォルダーとサブフォルダー内のすべてのコンテンツをダウンロードする必要があります。Wgetを使用していくつかの方法を試しましたが、完了を確認すると、フォルダーに表示されるのは「インデックス」ファイルだけです。インデックスファイルをクリックすると、ファイルが表示されますが、実際のファイルが必要です。

誰も私が見落としたWgetのコマンドを持っていますか、またはこの情報のすべてを取得するために使用できる別のプログラムがありますか?

サイトの例:

www.mysite.com/Pictures/ Pictures DIrには、いくつかのフォルダーがあります。....

www.mysite.com/Pictures/Accounting/

www.mysite.com/Pictures/Managers/North America / California / JoeUser.jpg

すべてのファイル、フォルダなどが必要です。


1
wget特に再帰的に使用するためのドキュメントを読みましたか?
モーゼ

関連するドキュメントもここにあります。
モーゼ

回答:


37

私はあなたがこれを試したことがないと仮定したい:

wget -r --no-parent http://www.mysite.com/Pictures/

または、「index.html」ファイルをダウンロードせずにコンテンツを取得するには:

wget -r --no-parent --reject "index.html *" http://www.mysite.com/Pictures/

参照:wgetを使用して、任意のファイルが含まれるディレクトリを再帰的に取得する


1
おかげで、私はそのコマンドを数回実行しましたが、コマンドを最後まで終わらせませんでした。サイドトラッキングを取得し、コマンドを実際に終了させ、最初にすべてのフォルダーをコピーしてから、戻ってすべてのファイルをフォルダーにコピーしました。
恐ろしいヘンリー

忍耐力があれば、2週間前にこれを行うことができたでしょう。:) 再度、感謝します。
恐ろしいヘンリー

@Horrid Henry、おめでとうございます!
フェリックスイマフィドン

同様のコマンドを使用しますが、index.htmlファイルのみを取得します!
シェンウェン

20

私が使う wget -rkpN -e robots=off http://www.example.com/

-r 再帰的に

-kリンクを変換することを意味します。したがって、ウェブページ上のリンクは、example.com / blaではなくlocalhostになります

-p は、すべてのWebページリソースを取得することを意味するため、画像とJavaScriptファイルを取得して、Webサイトが正常に機能するようにします。

-N タイムスタンプを取得して、ローカルファイルがリモートWebサイトのファイルよりも新しい場合はスキップします。

-eフラグオプションであり、動作するために必要robots=offです。

robots=off は、ロボットファイルを無視することを意味します。

また-c、このコマンドを使用していたので、コマンドを再実行したときに中断したところから接続が継続した場合、接続が切断されました。私-Nはうまくいくと思った-c


これらのパラメーター設定が何をするのかを説明するために、いくつかの文章を回答に追加してもらえますか?
fixer1234 14

ごめんなさい。今すぐ追加してください
ティムジョナス14

回答を更新しました
ティムジョナス14

ありがとう。-cはコマンドの例の一部であるか、不完全なダウンロード後にオプションで追加する必要がありますか?また、-eは、コマンドが.wgetrcにある可能性のあるものよりも優先されるようにしますか?そして、それは-r(再帰的対隠clus的)のタイプミスですか?
fixer1234 14

はい、それは正しいです。Yes -eは、それがrobots=offないと動作しないように見えたので、そこに追加した.wgetrcの一部であるかのようにコマンドを実行します。
ティムジョナス14

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.