タグ付けされた質問 「wget」

wget-コンテンツを非対話的にダウンロードするコマンドラインユーティリティ(スクリプト、cronジョブ、X-Windowsサポートのない端末などから呼び出すことができます)


4
wgetが親ディレクトリから指定された深さまでファイルを取得できないようにする方法はありますか?
wgetには-np、親ディレクトリからのファイルの取得を無効にするオプションがあります。私は似たようなものをもう少し柔軟にする必要があります。検討してください: www.foo.com/bar1/bar2/bar3/index.html すべてを取得したいが(ツリー階層で)bar2(!)より「高く」ない。したがってbar2、フェッチする必要がありますが、フェッチしないでくださいbar1。 wgetをより選択的にする方法はありますか? 背景:私は、同様の論理構造を持つWebサイトをミラーリングしようとしています-開始点、上、下の順です。そのwgetようなレイアウトにより適した以外のツールがある場合は、私にもお知らせください。 更新 または、可能な深さを指定する代わりに、「これまたはそのURLに一致しない限り、親はありません」のようなものかもしれません。 アップデート2 サーバーには何らかの構造がありますよね?ツリーとして視覚化できます。したがって、通常、「-no-parent」を使用すると、あるポイントAから開始して、下に行くだけです。 私の望みは、上昇する能力です-Xノードを上昇することが許可されている、または(100%相当)Bノードまで到達することが許可されている(距離BA = X) すべての場合において、ダウンするためのルールは、ユーザーによって定義されたままです(たとえば、Yレベルだけダウンします)。 保管方法は?実際には問題ではありません。wgetデフォルトではサーバー構造が再作成され、恐れることは何もありません。または、何も修正する必要はありません。それで、2ワードで-いつものように。 アップデート3 以下のディレクトリ構造-各ディレクトリにRのファイルが1つだけあると仮定しましょう-R.htmlなど。もちろん、複数のページを持つことができるため、これは単純化されています。 R / \ B G / \ C F / \ A D / E A(A.html)は私の出発点、X = 2です(つまり、Bはフェッチしたい最上位のノードです)。この特定の例では、これはR.htmlとG.htmlを除くすべてのページをフェッチすることを意味します。A.htmlはBからではなく、そこから開始する必要があるため、「開始点」と呼ばれます。 アップデート4 ネーミングはUpdate 3から使用されます。 wgetオプションwww.foo.com/B/C/A/A.html 問題は、ディレクトリB以下からすべてのページを取得するためのオプションは何ですか(A.htmlから開始する必要があることを知っている)。
11 wget  mirror  tree 

5
githubからwgetできない、sslv3ハンドシェイクエラー
最近失敗し始めたgithubからmodセキュリティをダウンロードするスクリプトがあります。サーバーはCentOS 6を実行しますが、RHEL 6でもおそらく同じ問題があります。出力は次のとおりです。 # wget https://github.com/downloads/SpiderLabs/ModSecurity/modsecurity-apache_2.7.1.tar.gz --2014-07-22 18:49:46-- https://github.com/downloads/SpiderLabs/ModSecurity/modsecurity-apache_2.7.1.tar.gz Resolving github.com... 192.30.252.129 Connecting to github.com|192.30.252.129|:443... connected. HTTP request sent, awaiting response... 302 Found Location: https://cloud.github.com/downloads/SpiderLabs/ModSecurity/modsecurity-apache_2.7.1.tar.gz [following] --2014-07-22 18:49:47-- https://cloud.github.com/downloads/SpiderLabs/ModSecurity/modsecurity-apache_2.7.1.tar.gz Resolving cloud.github.com... 54.230.99.219, 205.251.219.190, 54.230.97.212, ... Connecting to cloud.github.com|54.230.99.219|:443... connected. OpenSSL: error:14077410:SSL routines:SSL23_GET_SERVER_HELLO:sslv3 alert handshake failure Unable to establish SSL connection. …
10 centos  wget  github 

2
パッチを使用してwgetソースに差分を適用しているときの「不正なパッチ」エラー
このパッチを適用したいので、 "Index:src / options.h"で始まり "+ @ item"で終わるコードをコピーし、wgetのソースコードフォルダーに作成された新しいファイルに入れました。それから私はしました: $ patch -p0 < name_of_patch (Patch is indented 1 space.) patching file src/options.h patch: **** malformed patch at line 6: char **excludes; /* List of excluded FTP directories. */ これをどのように適用するべきですか? これは私が作成したファイルの内容です: Index: src/options.h =================================================================== --- src/options.h (revision 2276) +++ src/options.h (working copy) @@ …
10 wget  patch 

1
wget中にmd5を取得する
私はwget巨大なファイル(100GB以上)を使用していて、私のmd5sumをリポジトリに投稿された合計と比較しています。信じられないかもmd5sumしれませんが、このサイズのファイルで実行するにはかなりの時間がかかるので、ダウンロードと並行して合計を取得します。 これを行う最良の方法は何ですか?wget(驚くほど)ダウンロード中にMD5を計算するオプションが表示されないのでtee、使用するのが正しいと思いますか?
10 wget  checksum 

3
変数に格納されている引数をWGETに渡すにはどうすればよいですか
私は広範囲にwgetを使用するbashスクリプトを書いています。すべての共通パラメーターを1か所で定義するには、変数に格納します。これがコードの一部です。 useragent='--user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64; rv:27.0) Gecko/20100101 Firefox/27.0"' cookies_file="/tmp/wget-cookies.txt" save_cookies_cmd="--save-cookies $cookies_file --keep-session-cookies" load_cookies_cmd="--load-cookies $cookies_file --keep-session-cookies" function mywget { log "#!!!!!!!!!# WGET #!!!!!!!!!# wget $quiet $useragent $load_cookies_cmd $@" wget $useragent $load_cookies_cmd "$@" } サッドが機能していません。どういうわけか、変数$ useragent、$ save_cookies_cmd、$ load_cookies_cmd、およびこれらの変数をパラメーターとして渡すcaling wgetにパラメーターを格納する正しい方法がありません。 次のような結果のコマンドラインが必要です。 wget --user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64; rv:27.0) Gecko/20100101 Firefox/27.0" --load-cookies /tmp/wget-cookies.txt …

2
wgetによる実際の名前のファイルのダウンロード
を使用してWebサイトからHTTP経由でファイルをダウンロードしようとしていますwget。 私が使うとき: wget http://abc/geo/download/?acc=GSE48191&format=file というファイルのみが表示されindex.html?acc=GSE48191ます。 私が使うとき: wget http://abc/geo/download/?acc=GSE48191&format=file -o asd.rpm 私が取得するasd.rpmが、私は実際の名前でダウンロードしたい、と手動でダウンロードしたファイルの名前を変更したくありません。
9 filenames  wget 

1
wgetの宛先フォルダーを設定する方法
私はかなり新しいwgetです。ダウンロードの保存先フォルダを設定する方法を知っているだけです。 と思います--directory-prefix。 ありがとうございました、
9 wget 

3
ソースページの最初の数バイトのみをダウンロードする
cURLコマンドを使用してWebサイトのHTMLソースページをダウンロードしています。問題は、ページのコンテンツのほとんどが必要ないことです。ソースページの最初の100行が必要です。最初の数行の後でページのダウンロードを停止する方法はありますか? 現在、私は以下のコマンドが機能していますが、時間効率が良くないようです。 curl -r[0-1] "http://www.freebase.com/m/045c7b" > foo.txt 私はから値を変更しようとした1の.5と.05、まだWebページ全体をダウンロードしてきています。 上記のコマンドを実行するために1秒未満の時間を見ています。 編集 manページからはcURL、私は「ことがわかります。また、多くのHTTP / 1.1サーバはこの機能を使用すると、範囲を取得しようとすると、あなたの代わりに、文書全体を取得しますので、有効になっていないことに注意する必要があります。」もしそうならサーバーは範囲クエリnixをサポートしていませんが、環境内に他のコマンドがあり、実行しようとしていることを実行するのに役立ちますか?
9 wget  curl 


3
wgetはhttpsをサポートしていません
コマンドhttps://example.comを使用してダウンロードしたいのですwgetが、「サポートされていない/認識されないプロトコル」と表示されています。私は使用しようとしました--secure protocol=''が、それはうまくいきません。GNU wgetからtarファイルをダウンロードして構成しようとしましたが、失敗しました。 ここに私が見るものの例があります: bash-2.05$ wget https://www.facebook.com/ https://www.facebook.com/: Unknown/unsupported protocol. bash-2.05$ こんにちは人々は答えをありがとう、それが以下のように言う私のwgetのバージョンを確認しました bash-2.05$ wget -V GNU Wget 1.6 Copyright (C) 1995, 1996, 1997, 1998, 2000 Free Software Foundation, Inc. This program is distributed in the hope that it will be useful, but WITHOUT ANY WARRANTY; without even the implied warranty …
9 wget  https 


2
パターンに一致するURLをスパイダーしないようにwgetに指示しますか?
スパイダーされたときのサイトの動作をテストしたい。ただし、「ページ」という単語を含むすべてのURLを除外します。私は試した: $ wget -r -R "*page*" --spider --no-check-certificate -w 1 http://mysite.com/ この-Rフラグは、「ページ」という単語を含むURLパターンを拒否することになっています。それが機能していないように見えることを除いて: Spider mode enabled. Check if remote file exists. --2014-06-10 12:34:56-- http://mysite.com/?sort=post&page=87729 Reusing existing connection to [mysite.com]:80. HTTP request sent, awaiting response... 200 OK このようなURLのスパイダーを除外するにはどうすればよいですか?
8 wget  url 

5
Bash:URLから画像の寸法を決定する最速の方法
私は、画像のサイズを決定するbashの本当に速い方法を理解しようとしています。 画像を取得し、imagemagickを使用して画像の高さと幅を決定できることはわかっています。これが最速の方法ではないのではないかと心配しています。 また、機能のごく一部のみが必要な場合にimagemagickをインストールする必要があることにも関心があります。リソース(CPU、RAM、ストレージ)が非常に限られている組み込みシステムを使用しています。 何か案は?

2
JavaScriptでポストペイントされたコンテンツを含むWebページをフェッチできるSeleniumRC以外の優れたツールはありますか?
の主な欠点の1つcurlは、最初のHTTP応答の後に発生するJavaScript AJAX応答によって主要なコンテンツがペイントされているウェブページが増えていることです。curlこのポストペイントされたコンテンツを取得することはありません。 したがって、コマンドラインからこれらのタイプのウェブページを取得するために、SeleniumRCを駆動してFirefoxインスタンスを起動し、これらのAJAX呼び出しが完了した後にソースHTMLを返すスクリプトをRubyで書くことに限定されました。 この種の問題には、より簡潔なコマンドラインソリューションを用意する方がはるかに優れています。誰か知っていますか?
8 wget  http  html  curl  selenium 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.