Unix & Linux wget

6

puf（Parallel URL fetcher）しか見つかりませんでしたが、ファイルからURLを読み取ることができませんでした。何かのようなもの puf < urls.txt 動作しません。サーバーにインストールされているオペレーティングシステムはUbuntuです。

14 ubuntu wget parallelism

2

ssh接続が失われた後、wgetが死ななかったのはなぜですか？

私はssh自分のサーバーにエドと走りwget -r -np zzz.aaa/bbb/ccc、それが仕事を始めました。それから（私の家での）インターネット接続が中断wgetされhup、ssh接続が失われたために端末が死んだためにそれがped されたのではないかと心配しました。しかし、その後ssh、サーバーに実行して、サーバーがまだ実行中で出力を入れてwget.logダウンロードしていることに気付きました。誰かが私にここで何が起こったのか説明してもらえますか？これはps私に与えるものです： PID %CPU %MEM VSZ RSS TTY STAT START TIME COMMAND 32283 0.6 29.4 179824 147088 ? S 14:00 1:53 wget -r -np zzz.aaa/bbb/ccc ?の列での意味（疑問符）はtty？

13 ssh terminal wget signals

2

wgetでダウンロードするときに「他の」ドメインを無視しますか？

www.website.com/XYZの下にあるリンクをクロールし、www.website.com / ABCの下にあるリンクのみをダウンロードします。次のwgetコマンドを使用して、必要なファイルを取得しています。 wget -I ABC -r -e robots=off --wait 0.25 http://www.website.com/XYZ これは、wget 1.13.4を使用すると完全に機能します。しかし、問題は、wget 1.11があるサーバーでこのコマンドを使用する必要があり、同じコマンドを使用すると、次のような追加のドメインがダウンロードされることです。 www.website.de www.website.it ... この問題を回避するにはどうすればよいですか？使ってみた --exclude domains=www.website.de,www.website.it ただし、それらのドメインは引き続きダウンロードされました。また--no-parent、必要なファイルが上位レベルにあるため、使用できないことに注意してください（website.com/XYZの下にあるリンクをクロールして、website.com / ABCの下にファイルが必要です）。ヒントはありますか？

13 command-line wget

4

wgetでダウンロードするファイルサイズを制限するにはどうすればよいですか？

wget（phpスクリプトから）画像ファイルをダウンロードするために使用したいが、特定のサイズを超えるファイルをダウンロードしたくない。でファイルサイズを制限できますwgetか？そうでない場合、より良い方法は何ですか？

13 files wget size

2

ダウンロードしたファイルが完全か壊れているかを確認できるコマンドライン方式はありますか？

ファイルのダウンロードと操作を伴うスクリプトを書いていますが、作業する前にファイルが不完全になっていないことを確認したい（たとえば、接続の切断など）。

13 files wget curl download corruption

2

HTMLの代わりにバイナリを返すWget？

wgetを使用して静的なHTMLページをダウンロードしています。W3C Validatorは、ページがUTF-8でエンコードされていることを教えてくれます。それでも、ダウンロード後にファイルをcatすると、大量のバイナリナンセンスが得られます。私はUbuntuを使用していますが、デフォルトのエンコーディングはUTF-8だと思いましたか？それは私のロケールファイルが言っているようです。なぜこれが起こっているのですか、どうすれば修正できますか？また、のように見えますContent-Encoding: gzip。おそらくこれは差分になりますか？これは簡単なリクエストです： wget https://www.example.com/page.html 私もこれを試しました： wget https://www.example.com/page.html -q -O - | iconv -f utf-16 -t utf-8 > output.html 返されたもの： iconv: illegal input sequence at position 40 ファイルをcat'ingすると、次のようなバイナリが返されます。 l�?חu�`�q"�:)s��dġ__��~i��6n)T�$H�#��QJ 結果xxd output.html | head -20： 00000000: 1f8b 0800 0000 0000 0003 bd56 518f db44 ...........VQ..D 00000010: 107e a6bf 62d4 …

12 wget character-encoding gzip http

2

Wget：リンクを変換し、既に取得したファイルの再ダウンロードを避けますか？

パブリッシュ後に変更されない複数のファイルに分散したデータをダウンロードしています。したがって--timestamping、それは十分ではありません。なぜなら、変更されたリソースを常にチェックしているからです。これは、私の場合、まったく無意味です。 --no-clobber完全にフィットします。残念ながら--convert-links 、何らかの理由で動作しません。 --no-clobberと--convert-linksの両方が指定され、-convert-linksのみが使用されます。私はそれ--backup-convertedが助けになることを望みましたが、それは何も変わりませんでした（それはうまくいき--timestampingます）。なぜwget --convert-links --backup-converted --no-clobber --wait 1 https://example.com無視し--no-clobber、どうすれば修正できますか？

12 wget download

5

URLに基づいてwgetまたはcurlの出力をカスタムファイル名に書き込む

たとえば、リンクがありhttp://www.abc.com/123/def/ghi/jkl.mnoます。wgetor curlを使用してダウンロードし、出力ファイルの名前をとして取得しますdef_ghi_jkl.mno。ここで、部分def_ghiはリンクから取得されます。このwgetコマンドをスクリプトに追加して、複数のファイルをダウンロードし、出力ファイル名を明示的に指定できないようにします。

12 filenames wget curl

2

wgetの代替

基本的に、HTMLページ、写真、音声の束であるサーバー上にサイトがあります。そのサーバーへのパスワードを失ったため、そこに保存されているすべてのものを取得する必要があります。ページごとに移動してすべてを保存できますが、サイトには100ページ以上あります。 OSXを使用しています。私は使用しようとしましたwgetが、サーバーがそれをブロックしていると思います。そのコンテンツを取得するために使用できる代替手段はありますか？

12 wget

3

ドロップボックスのマウント（ファイルの探索用）

CPU、メモリ、ストレージに大きな負荷をかけることなく（つまり、リモートファイルのコピーをローカルに保存せずに）、Dropboxファイルシステムを簡単に探索できるようにしたいと考えています。公式クライアントは多くのリソースを消費しているようです（そして、同期のような不必要な操作を行うでしょう）-http ://www.lowendtalk.com/discussion/3179/dropbox-memory-usage-on-linux。一つは、単にそれを（たとえば、FUSEと、ローカルにファイルをコピーせず）をマウントし、通常のUnixユーティリティを使用してファイルを探索することができますか（ls、du、cp）？（public.me.comに似たものが欲しかった：-likewget -rまたはFUSE。） Dropbox-Uploader（Dropbox APIを使用してアクセスするbashスクリプト）は、Unixの方法でDropboxにアクセスするのに役立ちます。ただし、残念ながら、ディレクトリの再帰的なダウンロード（などwget -r）はサポートされていません。そのため、その上にFUSEラッパーを配置したいのです。

12 wget fuse dropbox hosting-services protocols

5

404を取得した後、「wget」をどのように停止しますか？

でブレース展開を使用するとwget、連番の画像を簡単に取得できます。 $ wget 'http://www.iqandreas.com/sample-images/100-100-color/'{90..110}'.jpg' これは、番号の最初の10個のファイルフェッチ90.jpgする99.jpgだけで罰金を、しかし、100.jpg以降返し404：ファイルが見つかりません（私はサーバー上に保存された100枚の画像を持っている）エラーが発生しました。これらの{00..200}存在しないファイルは、存在しないファイルが100個あるなど、より大きな範囲を使用する場合、より「問題」になり、スクリプトの実行時間が増加し、わずかな負担（または少なくとも煩わしさ）になることさえあります。サーバー。 wget最初の404エラーを受け取った後に停止する方法はありますか？（または、別の理由で範囲内にファイルが欠落している場合は、続けて2つ続けてください）中括弧の展開を使用する必要はありません。ループも結構です。

12 bash shell-script wget

1

「最後に変更された」ヘッダーの欠落を回避するにはどうすればよいですか？

私はwgetこのように実行しています： wget --mirror --adjust-extension --convert-links --no-cookies http://tshepang.net -o log-main これらのメッセージがたくさん表示されます： Last-modified header missing -- time-stamps turned off. それは、私がローカルに持っていても、ページが再ダウンロードされ続けることを意味すると思います。注：コマンドミラーを実行するたびに既存のファイルを再ダウンロードする必要がないようにするためです。

12 wget web

2

wgetのmanページで参照されている「自動検索プログラム」をブロックするための「2001年の記事」とは何ですか？

wgetmanページはのためのセクションの下に、これを述べている--random-waitパラメータ： Some web sites may perform log analysis to identify retrieval programs such as Wget by looking for statistically significant similarities in the time between requests. [...] A 2001 article in a publication devoted to development on a popular consumer platform provided code to perform this analysis on the fly. …

11 wget man documentation

1

Wget、失敗またはタイムアウト後に再試行を中止

私はwgetでURLを呼び出しています： /usr/bin/wget --read-timeout=7200 https://site_url/s この場合、Wgetは15分ごとにGETリクエストを実行しますが、タイムアウトが設定されているにもかかわらず、なぜこれが発生するのですか？呼び出しは1回だけ行う必要があります。どうすればwgetを再試行しないように設定できますか？私はあなたが設定できることを知っていますがt=n、0は無限であり、1は私が望むよりも1多いです。

11 linux rhel wget

3

ホスティングサイトからダウンロードするためにwgetを使用する方法

wgetは、インターネット上ですばやくデータをダウンロードするのに非常に便利なツールですが、FreakShare、IFile.it Depositfiles、Uploaded、Rapidshareなどのホスティングサイトからダウンロードするために使用できますか？もしそうなら、どうすればそれができますか？

11 wget download hosting-services

タグ付けされた質問 「wget」

タグ付けされた質問「wget」