コンピュータユーザー wget

0

を使用して、ファイルを自動的にダウンロードするcronジョブをセットアップするスクリプトを作成しようとしていますwget。重要な部分は次のとおりです。 $ wget -N --passive-ftp -P /home/myuser ftp://ftp.example.com/path/to/file.xml --2015-10-09 09:55:03-- ftp://ftp.example.com/path/to/file.xml => “/home/myuser/file.xml” Resolving ftp.example.com... 123.123.123.123 Connecting to ftp.example.com|123.123.123.123|:21... connected. Logging in as anonymous ... Logged in! ==> SYST ... done. ==> PWD ... done. ==> TYPE I ... done. ==> CWD (1) /path/to ... done. ==> PASV ... couldn’t …

2 linux ftp wget

1

wget --page-requisitesを拡張するスクリプト？

今日は非常によく似た質問を投稿しましたが、wget / linuxに焦点を当ててもう一度質問したいと思います。大丈夫だと思います。できればPHPを使用して、LAMPスタック上にWebページのオフラインコピーをプログラムで作成する必要があります。HTMLソース、添付画像、CSSスタイルシートが必要です。コマンドラインで実行できますが、新しいパッケージをインストールできません。 wget --page-requisitesアーカイブしたいページでa を実行できます。これにより、必要なものはすべてダウンロードされますが、ダウンロードされたHTMLおよびCSSファイルがアーカイブファイルを指すように変更されることはありません。ダウンロードしたドキュメントを変更して、ダウンロードしたリソースを指す拡張機能/ Perlスクリプト/シェルスクリプト、またはこれを行う別のLinuxベースのソリューションを探しています。私はすでにチェックhttrackしましたが、サーバーにインストールされていないようです（ "whereis httrack"は何も返しません）。

2 linux bash shell wget perl

2

wgetが突然終了する

サーバーキャッシュを更新するには、定期的にサイトを横断する必要があります。これは、非常に多くの（数千の）ページを持つデータベース駆動型のサイトです。私はwgetを使用して同じサーバー上でローカルにサイトをミラーリングするため、このコマンドを使用します。 wget --mirror localhost しばらくすると、次のメッセージで突然停止します。 HTTP要求が送信され、応答を待っています...終了しました常に発生しますが、まったく同じURLでは発生しません。そして、私は別のサーバーでも同じ結果を試してみました。 --debugオプションは有用な情報を提供せず、Apacheのログファイルも提供しません。この問題の原因は何ですか？メモリ不足などのバッファが疑われます。または、スタックオーバーフローが発生しました。あるいは、同じことができる他のコマンドラインツールはありますか？ Debian LennyのWget 1.11.4です。マーティン

2 linux wget mirroring

1

Wgetは実際のファイルよりも多くのデータをダウンロードしました

wgetを使用して前述のファイルサイズ694MBのlubuntuイメージをダウンロードしましたが、ダウンロードされたファイルのサイズは789MBです。 wget -cを実行すると、ファイルは既にダウンロードされています。しかしファイルサイズは与えられたものより100MB大きいです。ダウンロードされたファイルサイズはここで見られることができます： -rw-rw-r-- 1 alex alex 98537904 Jun 1 2011 R284575.exe -rw-rw-r-- 1 alex alex 4928 Sep 25 11:06 wget-log -rw-rw-r-- 1 alex alex 827390116 Sep 25 11:06 lubuntu-14.04-desktop-amd64.iso -rw-rw-r-- 1 alex alex 148598 Sep 25 11:44 lubuntu-14.04-desktop-amd64.iso.1 ここでは、新しいダウンロードが開始されたときのlubuntuのイメージサイズを確認できます。 wget--limit-rate=40k http://cdimage.ubuntu.com/lubuntu/releases/14.04/release/lubuntu-14.04-desktop-amd64.iso wget--limit-rate=40k: command not found alex@dracula:~/Downloads$ wget http://cdimage.ubuntu.com/lubuntu/releases/14.04/release/lubuntu-14.04-desktop-amd64.iso …

1 download wget lubuntu

1

RSSダウンローダスクリプト

私の家にはLinuxを搭載したSynology NASがあります。 RSSフィードのグループをチェックし、新しいビデオPodcastを共有フォルダに自動ダウンロードするためのcronスクリプトを設定する予定です。私は、3週間以上経過したファイルやwget部分を削除するなど、ほとんどのスクリプトを実行できます。しかし、RSSフィードを解析して日付をチェックして最新のものだけを取得する方法はわかりません。私は、ホイールを作り直さないことを最善と考えました。そして、そこにいる誰かがコマンドラインのRSSダウンローダまたはそのようなスクリプトを持っているのを驚かせます。何か案は？

1 linux download rss wget

1

FTPプロキシでcurl / wgetを設定するにはどうすればよいですか？

curlまたはwgetがFTPプロキシを介してFTPサーバーからファイルをダウンロードするのにかなり苦労しています。動作するようにGUI FTPプログラムをセットアップしました... gFTPは次の設定で動作します。 ftp_proxy変数をプロキシホスト名に設定してcurl / wgetを使用すると、次のような出力が得られます。 # curl -v ftp://ftp.astron.com/pub/file/file-5.05.tar.gz * About to connect() to proxy blah port 21 (#0) * Trying blah... connected * Connected to blah (blah) port 21 (#0) > GET ftp://ftp.astron.com/pub/file/file-5.05.tar.gz HTTP/1.1 > User-Agent: curl/7.19.0 (x86_64-suse-linux-gnu) libcurl/7.19.0 OpenSSL/0.9.8h zlib/1.2.3 libidn/1.10 > Host: ftp.astron.com:21 > Pragma: no-cache …

1 unix ftp proxy wget curl

1

wgetを使用してディレクトリとサブディレクトリをダウンロードする

Webにフォルダービューのあるフォルダーがあります（http://example.com/folder1/folder2/） / folder2には、pdfファイルが含まれる複数のフォルダーがあります。wgetを使用して、すべてのサブフォルダーとファイルを含む/ folder2のすべてのコンテンツをssh経由でサーバーにダウンロードしたい。次のことを試しましたが、index.htmlとrobots.txtファイルのみを取得し続けています。 [root@myserver downloads]# wget -r --no-parent --reject "index.html*" http://www.example.com/folder1/folder2/ --2015-08-07 07:46:36-- http://www.example.com/folder1/folder2/ Resolving www.example.com... 192.168.1.1 Connecting to www.example.com|192.168.1.1|:80... connected. HTTP request sent, awaiting response... 200 OK Length: unspecified [text/html] Saving to: `www.example.com/folder1/folder2/index.html' [ <=> ] 4,874,325 138K/s in 37s 2015-08-07 07:47:42 (128 KB/s) - `www.example.com/folder1/folder2/index.html' saved [4874325] …

1 linux bash ssh wget

1

ブラックリストが原因でwgetがロードしないことを決定

Webサイトの完全なコピーを作成しようとしています。例えば、 http://vfilesarchive.bgmod.com/files/ 私は走っている wget -r -level=inf -R "index.html*" --debug http://vfilesarchive.bgmod.com/files/ そして、例えば、取得 Deciding whether to enqueue "http://vfilesarchive.bgmod.com/files/Half-Life%D0%92%D0%86/". Already on the black list. Decided NOT to load it. 何が起こっている？wget「ブラックリスト」とはどういう意味ですか、そこにあるものの一部のみをダウンロードするのはなぜですか？また、Webサイト全体を取得するにはどうすればよいですか？ wgetのバージョンは GNU Wget 1.20 built on mingw32 （Windows 10 x64で実行）。 PS私はこれを何とか解決できたと思う wget -m --restrict-file-names=nocontrol --no-iri -R "index.html*" <target url> URLの特殊な文字のためにファイル名がわずかに損なわれていますが。より良い解決策はありますか？

1 download wget web-crawler

1

wgetによってダウンロードされたファイルのリスト

私は私のcentosサーバーでwgetを使ってインターネット経由でファイルをダウンロードしています。 scpでファイルをサーバにコピーすることもあります。私は最近ダウンロードされたファイル、あるいはすべてのファイルのリストを表示するコマンドを探しています。だから私の質問は、これをどのように行うのですか？

centos wget scp

5

サイトマップを取得するためのWebサイトクローラー/スパイダー[非公開]

次のような形式で、Webサイトマップ全体を取得する必要があります。 http://example.org/ http://example.org/product/ http://example.org/service/ http://example.org/about/ http://example.org/product/viewproduct/ 次のように、リンクベースである必要があります（ファイルまたはディレクトリブルートフォースなし）。ホームページを解析->すべてのリンクを取得->それらを探索->リンクを取得、... また、すべての「子ページ」を取得しないために、ページが「テンプレート」であるかどうかを検出する機能も必要です。たとえば、次のリンクが見つかった場合： http://example.org/product/viewproduct?id=1 http://example.org/product/viewproduct?id=2 http://example.org/product/viewproduct?id=3 http://example.org/product/viewproductを一度だけ取得する必要があります私はHTTtracks、wget（スパイダーオプション付き）を調べましたが、これまでのところ決定的なものはありません。ソフト/ツールはダウンロード可能である必要があり、Linux上で実行する場合は好みです。任意の言語で作成できます。ありがとう

website wget web-crawler sitemap

0

wget-拡張子を持つファイルを抽出する

次のようなURLに「f.txt」というファイルがあります http：//XXX-int-wap02/DocApp/doc.asp？Document = YYY ブラウザで上記のリンクをクリックすると、ドキュメント「f.txt」がダウンロードされますが、次のようなwgetを使用すると wget XXX-int-wap02/DocApp/doc.asp?Document=YYY ファイルを抽出できますが、ファイルは次のように抽出されますファイル名：doc.asp？Document = YYY ファイル拡張子：doc.asp？Document = YYY それから私はここでSUスレッドを通りましたリダイレクト時に正しい名前のファイルを取得する方法は？次に、次のようにwgetを変更しました wget -O f XXX-int-wap02/DocApp/doc.asp?Document=YYY 上記を使用して、次のwgetコマンドは、以下に示すようにファイルを正常に抽出します。ただし、ファイルの種類は取得されません。下の画像をご覧ください。事前の処理では、実際のファイル名は何であるかを知っています（コマンドでfとして言及しました）が、ファイル拡張子はわかりません。正しいファイル拡張子でファイル抽出を行う方法はありますか？

wget

0

タイムスタンプに基づいて、WebサイトのHTMLページをダウンロードする方法は？

これは繰り返し質問される可能性があることは知っていますが、申し訳ありませんが、私の問題に対する回答を見つけることができませんでした。他のコンテンツなしでPages htmlファイルをダウンロードしたいだけで、（可能であれば）タイムスタンプオプションを作成して、「より新しい」ページのみをダウンロードしたいです。（システムにCygWinとGNUWin32をインストールしました）助けてください-事前に感謝します...

command-line cygwin wget curl timestamp

1

ホストされたブログを再帰的にミラーリングする

私はそれを行う方法を知っているので、標準のWebページまたはWebサイトツリーをダウンロードする方法を尋ねていません。私が抱えている問題は、wget / downloadthemall / HTTrack / FDM / IDMなどがブログ形式で動作しないように見えることです。理論的には、リンクを備えた標準のWebページですが、そうではありません。 -mと-r -l3の両方を使用してwgetを試しましたが、ダウンザモールもありません。私が抱えている問題は、これらのダウンローダープログラムがタグシステムに従っていないようであるか、フォローするコンテンツの大部分が「古い投稿」タイプのリンクの背後にあることを認識していないことです。スクリプトを使用せずに、これらのダウンローダープログラムのいずれかの使用をカスタマイズして、Webサイトの特定のパスをたどる方法はありますか？

download wget blogging download-manager

1

WebサイトのHTMLページから単一のPDFを生成する

ここに問題があります。参照のために頻繁に必要なWebサイトがあり、モバイルデバイスでも機能するオフラインバージョンが欲しいので、PDFが思い浮かびます。 wgetを使用してHTMLバージョンのオフラインコピーを作成できますが、これは問題ではありません。私が本当に欲しいのは、内部リンクがまだ機能している状態で、すべてのHTMLページを単一のPDFに変換する方法です。そのため、Webバージョン上の別のURLを参照するリンクは、PDF内の対応するページを参照する必要があります。理想的には、PDFに入れる目次を生成する方法も必要です。どうすればこれを達成できますか？ Bash / Python / ruby / whateverスクリプトやその他のコマンドラインも歓迎します。（ところでOSX 10.9を使用しています。）

pdf html wget

1

404が見つからない親ページのすべてのサブHTMLページをダウンロードしますか？

こんにちはCS50を学んでいます。すべての問題セットをオフラインでダウンロードしたいと思います。各問題は、次のような単一のhtmlページとして表示されます http://docs.cs50.net/problems/recover/recover.html http://docs.cs50.net/problems/fifteen/fifteen.html 一方、親ページ http://docs.cs50.net/problems/ 404エラーを返します。すべてのサブHTMLページをダウンロードするにはどうすればよいですか？私が試したwgetし、httrackしかし失敗しました。ありがとう！

wget

タグ付けされた質問 「wget」

タグ付けされた質問「wget」