タグ付けされた質問 「scraping」

2
500万のWebページをスクレイピングする最も効率的な(時間、コスト)方法は?
結果のデータをスクレイピングして解析し、データベースに保存する必要があるWebページのリストがあります。合計は約5,000,000です。 これにアプローチする最良の方法の私の現在の想定は、最大100のEC2インスタンスをデプロイし、各インスタンスに50,000ページを提供してスクレイピングし、それを実行したままにし、プロセスが完了したらデータベースをマージすることです。実行には約1日かかります(各ページの読み込み、解析、保存に600ミリ秒)。 限られた時間内に大量のページスクレイピングを行った経験がある人はいますか?私は以前(1.5m)に多数を行ったことがありますが、それは単一のマシンからのものであり、完了するまでに1週間ほどかかりました。 私の状況のボトルネックはページのダウンロードであり、解析は2ミリ秒しかかからないので、ページのダウンロードプロセスを合理化できるものが私が探しているものです。

7
削られないようにするには?
検索可能なデータベース(DB)があり、結果はページごとに15に制限されていますが、結果は100にすぎませんが、それでも人々はサイトをこすり取ろうとします。 十分な速さでヒットするサイトを禁止しています。他に何かできることはないかと思っていました。Flashは結果を多分レンダリングしますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.