コンピュータユーザー wget

6

wgetまたはhttrackを使用してアーカイブされたWebサイトをミラーリングする際の問題

wgetを使用して、Webサイトのローカルミラーを作成しようとしています。しかし、すべてのリンクページを取得していないことがわかりました。こちらがウェブサイトです http://web.archive.org/web/20110722080716/http://cst-www.nrl.navy.mil/lattice/ で始まるすべてのページが必要なわけではありませんがweb.archive.org、で始まるすべてのページが必要ですhttp://web.archive.org/web/20110722080716/http://cst-www.nrl.navy.mil/lattice/。を使用するwget -rと、ファイル構造で web.archive.org/web/20110722080716/http://cst-www.nrl.navy.mil/lattice/index.html, しかし、私はこのデータベースの一部であるすべてのファイルを持っていません、例えば web.archive.org/web/20110808041151/http://cst-www.nrl.navy.mil/lattice/struk/d0c.html. おそらくhttrackのほうがうまくいくかもしれませんが、今はそれをつかみすぎています。それでは、どのようにしてインターネットアーカイブウェイバックマシンからアーカイブされたウェブサイトのローカルコピーを取得することが可能でしょうか？

12 linux wget httrack webarchive

2

wgetドライランを実行することは可能ですか？

を使用してウェブページを再帰的にダウンロードできることは知っていますがwget、ドライランを実行することは可能ですか？あなたが実際にそれをやった場合にどれだけダウンロードされるかを見るために、あなたはある種のテストランをすることができますか？画像、音声、映画などのメディアファイルへのリンクが多数あるページについて考えます。

12 wget

1

curl / wgetを使用して、異なるソースから同じファイルの一部をダウンロードするにはどうすればよいですか？

5つの異なるサーバーでホストされている非常に大きなファイルがあります。元のファイルを作成するために、各サーバーからファイルのさまざまな部分をダウンロードし、それらの部分を連結できるようにしたいと思います。 curl / wgetまたは他のOS Xコマンドラインツールでこれを行う方法はありますか？

12 macos download wget curl

3

Windowsでwgetのhttpプロキシアドレスを設定するにはどうすればよいですか？

パラメータなしで実行した場合、私のwget印刷物： D:\>wget SYSTEM_WGETRC = c:/progra~1/wget/etc/wgetrc syswgetrc = c:/progra~1/wget/etc/wgetrc D:\Apps\Util\wget: missing URL Usage: D:\Apps\Util\wget [OPTION]... [URL]... Try `D:\Apps\Util\wget --help' for more options. これはおそらく、つまりでファイルwgetrcを探すことを意味しますc:/progra~1/wget/etc/wgetrc。残念ながら、この場所はルート以外のプログラムでは使用できません。環境変数を変更しSYSTEM_WGETRCたりsyswgetrc環境変数を変更したりできると思っていましたが、効果がないように見えます D:\>echo %SYSTEM_WGETRC% d:\apps\util\wgetrc D:\>echo %syswgetrc% D:\APPS\Util\wgetrc

11 proxy wget

4

パラメーター付きのリンクをたどらずにwgetでダウンロードする方法

CDに含める2つのサイトをダウンロードしようとしています。 http://boinc.berkeley.edu/trac/wiki http://www.boinc-wiki.info 私が抱えている問題は、これらが両方ともwikiであることです。例えば、ダウンロードする場合： wget -r -k -np -nv -R jpg,jpeg,gif,png,tif http://www.boinc-wiki.info/ ...？action = edit ...？action = diff＆version = ...のようなリンクもたどるので、たくさんのファイルを取得します。誰かがこれを回避する方法を知っていますか？画像や差分などのない現在のページが欲しいだけです。 PS： wget -r -k -np -nv -l 1 -R jpg,jpeg,png,gif,tif,pdf,ppt http://boinc.berkeley.edu/trac/wiki/TitleIndex これはバークレーでは機能しましたが、boinc-wiki.infoはまだ問題を引き起こしています：/ PPS：最も関連性の高いページと思われるものを入手しました： wget -r -k -nv -l 2 -R jpg,jpeg,png,gif,tif,pdf,ppt http://www.boinc-wiki.info

11 linux unix wget

2

方法：指定した間隔でWayback Machineからページをダウンロードする

つまり、指定された期間と間隔でWayback Machineから利用可能な各ページをダウンロードします。たとえば、2012年1月から2012年12月まで、nature.comから毎日利用可能な各ページをダウンロードする必要があります（正確にやりたいことではありませんが、十分に近いので、良い例を示します）。残念ながら、Waybackマシンがどのように機能するかという独特な性質のため、wgetは機能しません。 Wayback Machineダウンローダーなどのツールは、ページの最新バージョンのみをダウンロードするようです。 IA APIとの対話は実行可能なルートのように思えますが、それがどのように機能するかはわかりません。ありがとう！

11 download wget webpage

3

＃を含むURLを持つWget

のようなURLをダウンロードしようとしていますhttp://www.somesite.com/restaurants.html#photo=22x00085。単一引用符の間に挿入しましたが、正しいページではないhttp://www.somesite.com/restaurants.htmlのみをダウンロードします。解決策はありますか？

11 wget url

3

wgetでダウンロードする数値の範囲をループする

次のことを行うbashスクリプトを作成するにはどうすればよいですか。 URL = "example.com/imageID=" while (1..100) wget URL + $i #it will wget example.com/imageID=1, then 2, then 3, etc done そのため、実行するループの数、ループからの数で終了するURLがあります。私wgetはこれらすべてをする必要があります。

11 bash shell-script wget

5

wgetとgrepを組み合わせる方法

HTMLページのURLがあり、それをgrepしたい。どうすればできwget someArgs | grep keywordますか？私の最初のアイデアはでしたがwget -q -O - url | grep keyword、wgetの出力はgrepをバイパスし、元の形式で端末に表示されました。

11 grep wget

5

どのようにWGETを使用してサイトを1レベルの深さでミラーリングし、CSSイメージを含むJS、CSSリソースを回復しますか？

永続的な保存のために、簡単なページのコピーを私のHDにダウンロードしたいと思います。私は深い再帰的なgetを探しているのではなく、単一のページだけを探していますが、そのページによって読み込まれるすべてのリソースもダウンロードする必要があります。例：https : //www.tumblr.com/ 期待する： index.html ロードされた画像ロードされたJSファイルロードされたCSSファイル CSSファイルに読み込まれた画像ダウンロードされたコピーで動作するようにローカライズされたページリソースへのリンク（Web依存なし）これを行うのに最適なwget構文またはその他のツールを見つけるのを手伝ってくれるかどうか知りたいです。私が試したツールは通常、CSSによる画像の読み込みに失敗するため、ローカルに読み込んだときにページが正しく表示されません。ありがとうございました！正接ソリューション FireFoxを使用してこれを行う方法を見つけました。デフォルトの保存は壊れており、「保存完了」と呼ばれるアドオンがあり、これで明らかにうまくいくことができます。ただし、FireFoxの現在のバージョンではサポートされていないため、ダウンロードできません。その理由は、このアドオン「Mozilla Archive Format」に組み込まれたためです。それをインストールし、[ファイル]> [名前を付けてページを保存...]を使用すると、基本的に古いアドオンである「Webページ、完了」という新しいオプションがあり、FireFoxが使用するストック実装を修正します（これはひどいです）。これはWGETソリューションではありませんが、実行可能なソリューションを提供します。編集：これをやろうとしている将来この質問をフォローしている可能性のある人のための別のばかげた問題。アドオンを適切に動作させるには、[ツール]> [Mozillaアーカイブ形式]を選択し、（ひどい）デフォルト設定の[ページの忠実なスナップショットを撮る]を[スクリプトとソースを保持して保存完了]に変更してください。変更しないと、アドオンがすべて空になります。スクリプトファイルを置き換えて、「/ *スクリプトはスナップショットの保存によって削除されました* /」というテキストに置き換えます。

11 javascript html css images wget

3

wgetがXサイズより大きいファイルをダウンロードしないようにする

さて、私はあきらめます。2 MBを超えるファイルを必要としないなど、ダウンロードするファイルのサイズを制限するにはどうすればよいですか？

11 download wget

1

aria2でフォルダ全体をダウンロードするにはどうすればよいですか？

Aria2は、wgetマルチスレッド、分割ダウンロード、ダウンロード再開などの多くの機能を備えた優れた代替品です。しかし、このすべての機能とオプションがあると、いくつかの特定のコマンドを実行することが難しくなる可能性があります。このXOWAフォルダー全体を10個の同時ダウンロードでここからダウンロードし、ファイルを次のディレクトリから4つのセグメントに分割します：https : //archive.org/download/Xowa_enwiki_latest 私が使用する4つのセグメントに分割された単一のファイルをダウンロードするには： aria2c -s 4 -x 4 https://archive.org/download/Xowa_enwiki_latest/Xowa_enwikibooks_2015-04-07.7z しかし、私はwget -rオプションと同じようにすべてのディレクトリをダウンロードしたいのですが、10個の同時ダウンロードファイルと各ファイルごとに4セグメントのダウンロードがあるので、Aria2を使用してそれをどのように実行できますか？

11 linux wget aria2

4

Wgetはサイレントですが、エラーメッセージが表示されます

Wgetでファイルをダウンロードしたいのですが、通常のUNIXの考え方では、ダウンロードが成功した場合に何も出力したくありません。ただし、ダウンロードが失敗した場合、エラーメッセージが必要です。この-qオプションは、エラーメッセージを含むすべての出力を抑制します。-nv代わりにオプションを含めても、Wgetは（stderrに）引き続き印刷します。 2012-05-03 16:17:05 URL:http://example.net/ [2966] -> "index.html" [1] どうすればその出力も削除できますが、それでもエラーメッセージが表示されますか？

10 wget

6

LinuxでTorバンドルとWgetを使用する方法

私はLinux Mint（Lisa）であり、Tor Bundleを使用していて、Torでwgetを使用しようとしています。ここで見つけた指示に従い、wgetを実行したときに表示されるのは、「514認証が必要です」という出力ファイルだけです。 Linux向けの最新バージョンのTor Bundle（バージョン2.2.35-9）をダウンロードして解凍しました。./start-tor-browserを実行しました。次にVidaliaで[設定]-> [詳細]に移動し、[ControlPortを自動的に構成する]チェックボックスをオフにします。（後で「認証」を「なし」に変更してみましたが、これでも機能しません。）IPアドレスはlocalhostに設定され、ポートは9051です。ターミナルから私は言った： export http_proxy="http://127.0.0.1:9051" wget -proxy=on www.whatismyip.com これにより、www.whatismyip.comの代わりに「514認証が必要です」という出力ファイルが得られました。何か案は？

10 linux proxy wget linux-mint tor

2

Wgetなどのコマンドラインツールを使用してOpenIDサイトにログインするにはどうすればよいですか？

具体的には、さまざまなStack Exchangeサイトのユーザープロファイルから特定のページをダウンロードできるようにしたいと考えています。ただし、これcronはコマンドラインから、解析可能な形式で（ジョブを使用して）自動的に行いたいと思います。私はこれにLinuxを使用することを好みますが、必要に応じてMacまたはWindowsマシンにアクセスできます。理想的には、WgetやcURLなどのツールを使用してページをフェッチしたいと考えています。どうすればログインをすり抜けられるかわかりません。Firefox経由でログインし、関連するCookieをエクスポートし、その--load-cookiesオプションを使用してWgetにインポートできることを示唆する提案を見てきました。たとえばこことここ。これはログインしたばかりの場合は機能しますが、しばらくすると機能しません。IDトークンを更新する必要があるためだと思います。したがって、SUにログインしてCookieをエクスポートした直後に、次のことができます。 wget --load-cookies cookies.txt \ https://superuser.com/users/151431/terdon?tab=responses 数分後、404エラーが発生します。 wget -O ~/stack/$(date +%s) --load-cookies ~/cookies.txt \ https://superuser.com/users/151431/terdon?tab=responses --2013-08-06 04:04:14-- https://superuser.com/users/151431/terdon?tab=responses Resolving superuser.com (superuser.com)... 198.252.206.16 Connecting to superuser.com (superuser.com)|198.252.206.16|:80... connected. HTTP request sent, awaiting response... 404 Not Found 2013-08-06 04:04:15 ERROR 404: Not Found. では、コマンドラインからOpenID対応のWebサイトに自動的にログインするにはどうすればよいですか？ PS。私の質問は実際にはコマンドラインの側面についてであり、問題のWebページの実際の詳細ではないので、これはWebアプリケーションよりもこちらの方が適していると思います。どんなソリューションでもすべてのOpenIDサイトに適用できると思います。

10 linux command-line wget curl openid

タグ付けされた質問 「wget」

タグ付けされた質問「wget」