2
500万のWebページをスクレイピングする最も効率的な(時間、コスト)方法は?
結果のデータをスクレイピングして解析し、データベースに保存する必要があるWebページのリストがあります。合計は約5,000,000です。 これにアプローチする最良の方法の私の現在の想定は、最大100のEC2インスタンスをデプロイし、各インスタンスに50,000ページを提供してスクレイピングし、それを実行したままにし、プロセスが完了したらデータベースをマージすることです。実行には約1日かかります(各ページの読み込み、解析、保存に600ミリ秒)。 限られた時間内に大量のページスクレイピングを行った経験がある人はいますか?私は以前(1.5m)に多数を行ったことがありますが、それは単一のマシンからのものであり、完了するまでに1週間ほどかかりました。 私の状況のボトルネックはページのダウンロードであり、解析は2ミリ秒しかかからないので、ページのダウンロードプロセスを合理化できるものが私が探しているものです。