タグ付けされた質問 「web-crawler」

5
Webページを電子書籍用の1つのファイルに変換する
HTML(例:http ://www.brpreiss.com/books/opus6/)をダウンロードし、それを1つのHTMLまたは電子書籍リーダーで使用できる他の形式に結合したい。無料の本があるサイトには標準のページングがなく、ブログやフォーラムではないため、自動クロールとマージを行う方法がわかりません。


2
wgetを使用してHTMLファイルのみをダウンロードする方法(画像、CSS、JSを無視する)
基本的に、Wgetを使用してサイト全体をクロールしますが、他のアセット(画像、CSS、JSなど)をダウンロードしないようにする必要があります。HTMLファイルのみが必要です。 Google検索はまったく役に立ちません。 私が試したコマンドは次のとおりです。 wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -E -e robots=off -U "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.102 Safari/537.36" -A html --domain=www.example.com http://www.example.com このサイトは、フラットPHPとCMSのハイブリッドです。だから、HTML "ファイルは、"可能性があり/path/to/page、/path/to/page/、/path/to/page.php、または/path/to/page.html。 私も含めました-R js,cssが、それでもファイルをダウンロードし、それらを拒否します(帯域幅、CPU、およびサーバー負荷の無意味な浪費です!)。
14 wget  web-crawler 

4
Wgetを使用してサイトを再帰的にクロールし、画像をダウンロードする
Webサイトを再帰的にクロールし、特定の種類の画像のみをダウンロードするようにwgetにどのように指示しますか? これを使用してサイトをクロールし、Jpeg画像のみをダウンロードしてみました。 wget --no-parent --wait=10 --limit-rate=100K --recursive --accept=jpg,jpeg --no-directories http://somedomain/images/page1.html ただし、page1.htmlにはサブページへの数百のリンクが含まれていますが、サブページには画像への直接リンクがありますが、wgetは "subpage13.htmlを削除する必要があるため削除します"などのメッセージを報告し、直接リンクされているものがないため、画像をダウンロードしません。開始ページから。 これは、-acceptがクロールとコンテンツのダウンロードの両方を指示するために使用されているのに対し、コンテンツのダウンロードを指示するためだけに使用したいためだと思います。wgetにすべてのリンクをクロールさせ、*。jpegなどの特定の拡張子を持つファイルのみをダウンロードさせるにはどうすればよいですか? 編集:また、一部のページは動的で、CGIスクリプト(img.cgi?fo9s0f989wefw90eなど)を介して生成されます。受け入れリストにcgiを追加しても(例--accept = jpg、jpeg、html、cgi)、これらは常に拒否されます。これを回避する方法はありますか?

4
cURLを使用したサイトスクレイピングは「合法」ですか?[閉まっている]
現在のところ、この質問はQ&A形式には適していません。回答は事実、参考文献、または専門知識によってサポートされると予想されますが、この質問は議論、議論、世論調査、または広範な議論を求める可能性があります。この質問を改善し、場合によっては再開できると思われる場合は、ヘルプセンターをご覧ください。 9年前に閉鎖されました。 最近、私はcURLを試していましたが、多くの可能性があることがわかりました。オンラインの曲を再生する音楽サイトをクロールする小さなスクリプトを作成しました。私の実験の途中で、曲のソースもクロールできることがわかりました。(そのサイトはダウンロードを提供していません)。 知っておくべきこと..サイトをクロールするのは完全に合法ですか?私が使用することを意味しhttp and port '80'、 市場にはダウンロードマネージャーがありません。ほとんどすべてのサイトからダウンロードできます。これらはすべて有効で合法です。

1
既存のブラウザのクッキーを使用することができて、Javascriptを処理することができるWebスパイダ/ダウンロードプログラムを探しています[完了]
私はWebサイト*を蜘蛛にしてその内容をディスクにダウンロードするプログラムを探しています。私は私が試したプログラムを停止させるように見えるが、私は以下の要件を持っています。 サイトのログオンプロセスは複数のページに分散されているので、Webブラウザでセッションを手動で開始し、認証してからスパイダーを起動してCookieにアクセスできるようにする必要があります。 リンクの多くはJavascriptを実行してからコンテンツを返します。 リンクの多くはPDF文書を返します(一部のスパイダーはこれをサポートしています)。 これまでのところ、私は#1と#2を処理することができるクモを見つけることができません。 *このサイトは請求書支払いサービスで、請求書の履歴があります。私はサービスの利用をやめたいと思っていますが、私はその歴史を守りたいのです。

1
ブラックリストが原因でwgetがロードしないことを決定
Webサイトの完全なコピーを作成しようとしています。例えば、 http://vfilesarchive.bgmod.com/files/ 私は走っている wget -r -level=inf -R "index.html*" --debug http://vfilesarchive.bgmod.com/files/ そして、例えば、取得 Deciding whether to enqueue "http://vfilesarchive.bgmod.com/files/Half-Life%D0%92%D0%86/". Already on the black list. Decided NOT to load it. 何が起こっている?wget「ブラックリスト」とはどういう意味ですか、そこにあるものの一部のみをダウンロードするのはなぜですか?また、Webサイト全体を取得するにはどうすればよいですか? wgetのバージョンは GNU Wget 1.20 built on mingw32 (Windows 10 x64で実行)。 PS私はこれを何とか解決できたと思う wget -m --restrict-file-names=nocontrol --no-iri -R "index.html*" <target url> URLの特殊な文字のためにファイル名がわずかに損なわれていますが。より良い解決策はありますか?

0
ドメイン上のすべてのリンクへのアクセス(ハイパーリンクは利用不可)
次のようなすべてのリンクにアクセスする必要があります。 http://www.thewebsitename.com/random_alphanumeric_code1.asp http://www.thewebsitename.com/random_alphanumeric_code2.asp 特定のウェブサイトの場合:http ://www.thewebsitename.com (もちろん、そのようなリンクへのハイパーリンクはhttp://www.thewebsitename.comで利用できません) ウェブサイトは、私が欲しいリンクへのアクセスを制限しません。彼らはそれらのウェブリンクにリンクするインターネットに広告を投稿するからです。それらのリンクにたどり着くために彼らの広告を求めてインターネットをあちこち歩き回る必要なく、私はそのようなすべてのリンクを追跡する必要があります。 これを行うことは可能ですか?

5
サイトマップを取得するためのWebサイトクローラー/スパイダー[非公開]
次のような形式で、Webサイトマップ全体を取得する必要があります。 http://example.org/ http://example.org/product/ http://example.org/service/ http://example.org/about/ http://example.org/product/viewproduct/ 次のように、リンクベースである必要があります(ファイルまたはディレクトリブルートフォースなし)。 ホームページを解析->すべてのリンクを取得->それらを探索->リンクを取得、... また、すべての「子ページ」を取得しないために、ページが「テンプレート」であるかどうかを検出する機能も必要です。たとえば、次のリンクが見つかった場合: http://example.org/product/viewproduct?id=1 http://example.org/product/viewproduct?id=2 http://example.org/product/viewproduct?id=3 http://example.org/product/viewproductを一度だけ取得する必要があります 私はHTTtracks、wget(スパイダーオプション付き)を調べましたが、これまでのところ決定的なものはありません。 ソフト/ツールはダウンロード可能である必要があり、Linux上で実行する場合は好みです。任意の言語で作成できます。 ありがとう

1
応答を得るWget 403
1時間でリクエストの制限があるAPIを使用しています。しかし、私のスクリプトは一度にすべてを行うため、403を取得するため、リクエストの約1/3を失います。 wgetの応答を確認する方法はありますか?403を取得して5分待って再試行する場合は? そして、ここに私の(今のところ)テストコードがあります: system ("wget \"http://test-link.com/403/\" -O {$dir}/{$in_dir_counter}.xml"); $test = system ("wget \"http://test-link.com/403/\" -O {$dir}/{$in_dir_counter}.xml"); echo "responsed - ".$test; 両方が同じを返します。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.