Unix & Linux wget

2

で区切られたURLのリストがある場合\n、wgetすべてのURLをダウンロードして現在のディレクトリに保存するために渡すことができるオプションはありますが、ファイルがまだ存在しない場合に限られますか？

11 wget download options

4

wgetが親ディレクトリから指定された深さまでファイルを取得できないようにする方法はありますか？

wgetには-np、親ディレクトリからのファイルの取得を無効にするオプションがあります。私は似たようなものをもう少し柔軟にする必要があります。検討してください： www.foo.com/bar1/bar2/bar3/index.html すべてを取得したいが（ツリー階層で）bar2（！）より「高く」ない。したがってbar2、フェッチする必要がありますが、フェッチしないでくださいbar1。 wgetをより選択的にする方法はありますか？背景：私は、同様の論理構造を持つWebサイトをミラーリングしようとしています-開始点、上、下の順です。そのwgetようなレイアウトにより適した以外のツールがある場合は、私にもお知らせください。更新または、可能な深さを指定する代わりに、「これまたはそのURLに一致しない限り、親はありません」のようなものかもしれません。アップデート2 サーバーには何らかの構造がありますよね？ツリーとして視覚化できます。したがって、通常、「-no-parent」を使用すると、あるポイントAから開始して、下に行くだけです。私の望みは、上昇する能力です-Xノードを上昇することが許可されている、または（100％相当）Bノードまで到達することが許可されている（距離BA = X）すべての場合において、ダウンするためのルールは、ユーザーによって定義されたままです（たとえば、Yレベルだけダウンします）。保管方法は？実際には問題ではありません。wgetデフォルトではサーバー構造が再作成され、恐れることは何もありません。または、何も修正する必要はありません。それで、2ワードで-いつものように。アップデート3 以下のディレクトリ構造-各ディレクトリにRのファイルが1つだけあると仮定しましょう-R.htmlなど。もちろん、複数のページを持つことができるため、これは単純化されています。 R / \ B G / \ C F / \ A D / E A（A.html）は私の出発点、X = 2です（つまり、Bはフェッチしたい最上位のノードです）。この特定の例では、これはR.htmlとG.htmlを除くすべてのページをフェッチすることを意味します。A.htmlはBからではなく、そこから開始する必要があるため、「開始点」と呼ばれます。アップデート4 ネーミングはUpdate 3から使用されます。 wgetオプションwww.foo.com/B/C/A/A.html 問題は、ディレクトリB以下からすべてのページを取得するためのオプションは何ですか（A.htmlから開始する必要があることを知っている）。

11 wget mirror tree

5

githubからwgetできない、sslv3ハンドシェイクエラー

最近失敗し始めたgithubからmodセキュリティをダウンロードするスクリプトがあります。サーバーはCentOS 6を実行しますが、RHEL 6でもおそらく同じ問題があります。出力は次のとおりです。 # wget https://github.com/downloads/SpiderLabs/ModSecurity/modsecurity-apache_2.7.1.tar.gz --2014-07-22 18:49:46-- https://github.com/downloads/SpiderLabs/ModSecurity/modsecurity-apache_2.7.1.tar.gz Resolving github.com... 192.30.252.129 Connecting to github.com|192.30.252.129|:443... connected. HTTP request sent, awaiting response... 302 Found Location: https://cloud.github.com/downloads/SpiderLabs/ModSecurity/modsecurity-apache_2.7.1.tar.gz [following] --2014-07-22 18:49:47-- https://cloud.github.com/downloads/SpiderLabs/ModSecurity/modsecurity-apache_2.7.1.tar.gz Resolving cloud.github.com... 54.230.99.219, 205.251.219.190, 54.230.97.212, ... Connecting to cloud.github.com|54.230.99.219|:443... connected. OpenSSL: error:14077410:SSL routines:SSL23_GET_SERVER_HELLO:sslv3 alert handshake failure Unable to establish SSL connection. …

10 centos wget github

2

パッチを使用してwgetソースに差分を適用しているときの「不正なパッチ」エラー

このパッチを適用したいので、 "Index：src / options.h"で始まり "+ @ item"で終わるコードをコピーし、wgetのソースコードフォルダーに作成された新しいファイルに入れました。それから私はしました： $ patch -p0 < name_of_patch (Patch is indented 1 space.) patching file src/options.h patch: **** malformed patch at line 6: char **excludes; /* List of excluded FTP directories. */ これをどのように適用するべきですか？これは私が作成したファイルの内容です： Index: src/options.h =================================================================== --- src/options.h (revision 2276) +++ src/options.h (working copy) @@ …

10 wget patch

1

wget中にmd5を取得する

私はwget巨大なファイル（100GB以上）を使用していて、私のmd5sumをリポジトリに投稿された合計と比較しています。信じられないかもmd5sumしれませんが、このサイズのファイルで実行するにはかなりの時間がかかるので、ダウンロードと並行して合計を取得します。これを行う最良の方法は何ですか？wget（驚くほど）ダウンロード中にMD5を計算するオプションが表示されないのでtee、使用するのが正しいと思いますか？

10 wget checksum

3

変数に格納されている引数をWGETに渡すにはどうすればよいですか

私は広範囲にwgetを使用するbashスクリプトを書いています。すべての共通パラメーターを1か所で定義するには、変数に格納します。これがコードの一部です。 useragent='--user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64; rv:27.0) Gecko/20100101 Firefox/27.0"' cookies_file="/tmp/wget-cookies.txt" save_cookies_cmd="--save-cookies $cookies_file --keep-session-cookies" load_cookies_cmd="--load-cookies $cookies_file --keep-session-cookies" function mywget { log "#!!!!!!!!!# WGET #!!!!!!!!!# wget $quiet $useragent $load_cookies_cmd $@" wget $useragent $load_cookies_cmd "$@" } サッドが機能していません。どういうわけか、変数$ useragent、$ save_cookies_cmd、$ load_cookies_cmd、およびこれらの変数をパラメーターとして渡すcaling wgetにパラメーターを格納する正しい方法がありません。次のような結果のコマンドラインが必要です。 wget --user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64; rv:27.0) Gecko/20100101 Firefox/27.0" --load-cookies /tmp/wget-cookies.txt …

10 bash wget variable-substitution

2

wgetによる実際の名前のファイルのダウンロード

を使用してWebサイトからHTTP経由でファイルをダウンロードしようとしていますwget。私が使うとき： wget http://abc/geo/download/?acc=GSE48191&format=file というファイルのみが表示されindex.html?acc=GSE48191ます。私が使うとき： wget http://abc/geo/download/?acc=GSE48191&format=file -o asd.rpm 私が取得するasd.rpmが、私は実際の名前でダウンロードしたい、と手動でダウンロードしたファイルの名前を変更したくありません。

9 filenames wget

1

wgetの宛先フォルダーを設定する方法

私はかなり新しいwgetです。ダウンロードの保存先フォルダを設定する方法を知っているだけです。と思います--directory-prefix。ありがとうございました、

9 wget

3

ソースページの最初の数バイトのみをダウンロードする

cURLコマンドを使用してWebサイトのHTMLソースページをダウンロードしています。問題は、ページのコンテンツのほとんどが必要ないことです。ソースページの最初の100行が必要です。最初の数行の後でページのダウンロードを停止する方法はありますか？現在、私は以下のコマンドが機能していますが、時間効率が良くないようです。 curl -r[0-1] "http://www.freebase.com/m/045c7b" > foo.txt 私はから値を変更しようとした1の.5と.05、まだWebページ全体をダウンロードしてきています。上記のコマンドを実行するために1秒未満の時間を見ています。編集 manページからはcURL、私は「ことがわかります。また、多くのHTTP / 1.1サーバはこの機能を使用すると、範囲を取得しようとすると、あなたの代わりに、文書全体を取得しますので、有効になっていないことに注意する必要があります。」もしそうならサーバーは範囲クエリnixをサポートしていませんが、環境内に他のコマンドがあり、実行しようとしていることを実行するのに役立ちますか？

9 wget curl

7

curlをインタラクティブに使用する方法はありますか？または、インタラクティブなcurl / wgetシェルはありますか？

このようなものを想像してみてください： $ curlsh http://www.example.org > GET /foo/bar/bam ...output here... > POST /thing/pool ... ... result here.... それを可能にするツールはありますか？

9 wget curl

3

wgetはhttpsをサポートしていません

コマンドhttps://example.comを使用してダウンロードしたいのですwgetが、「サポートされていない/認識されないプロトコル」と表示されています。私は使用しようとしました--secure protocol=''が、それはうまくいきません。GNU wgetからtarファイルをダウンロードして構成しようとしましたが、失敗しました。ここに私が見るものの例があります： bash-2.05$ wget https://www.facebook.com/ https://www.facebook.com/: Unknown/unsupported protocol. bash-2.05$ こんにちは人々は答えをありがとう、それが以下のように言う私のwgetのバージョンを確認しました bash-2.05$ wget -V GNU Wget 1.6 Copyright (C) 1995, 1996, 1997, 1998, 2000 Free Software Foundation, Inc. This program is distributed in the hope that it will be useful, but WITHOUT ANY WARRANTY; without even the implied warranty …

9 wget https

4

「wget」ジョブをバックグラウンドで実行すると表示されないのはなぜですか？

wgetこのようにバックグラウンドでコマンドを使用します wget -bq そしてそれは印刷しますバックグラウンドで継続中、pid 31754。しかし、コマンドを入力するとjobs、ジョブが表示されません（ダウンロードは完了していません）。

8 command-line wget background-process job-control

2

パターンに一致するURLをスパイダーしないようにwgetに指示しますか？

スパイダーされたときのサイトの動作をテストしたい。ただし、「ページ」という単語を含むすべてのURLを除外します。私は試した： $ wget -r -R "*page*" --spider --no-check-certificate -w 1 http://mysite.com/ この-Rフラグは、「ページ」という単語を含むURLパターンを拒否することになっています。それが機能していないように見えることを除いて： Spider mode enabled. Check if remote file exists. --2014-06-10 12:34:56-- http://mysite.com/?sort=post&page=87729 Reusing existing connection to [mysite.com]:80. HTTP request sent, awaiting response... 200 OK このようなURLのスパイダーを除外するにはどうすればよいですか？

8 wget url

5

Bash：URLから画像の寸法を決定する最速の方法

私は、画像のサイズを決定するbashの本当に速い方法を理解しようとしています。画像を取得し、imagemagickを使用して画像の高さと幅を決定できることはわかっています。これが最速の方法ではないのではないかと心配しています。また、機能のごく一部のみが必要な場合にimagemagickをインストールする必要があることにも関心があります。リソース（CPU、RAM、ストレージ）が非常に限られている組み込みシステムを使用しています。何か案は？

8 bash wget imagemagick

2

JavaScriptでポストペイントされたコンテンツを含むWebページをフェッチできるSeleniumRC以外の優れたツールはありますか？

の主な欠点の1つcurlは、最初のHTTP応答の後に発生するJavaScript AJAX応答によって主要なコンテンツがペイントされているウェブページが増えていることです。curlこのポストペイントされたコンテンツを取得することはありません。したがって、コマンドラインからこれらのタイプのウェブページを取得するために、SeleniumRCを駆動してFirefoxインスタンスを起動し、これらのAJAX呼び出しが完了した後にソースHTMLを返すスクリプトをRubyで書くことに限定されました。この種の問題には、より簡潔なコマンドラインソリューションを用意する方がはるかに優れています。誰か知っていますか？

8 wget http html curl selenium

タグ付けされた質問 「wget」

タグ付けされた質問「wget」