2
倫理的かつ費用対効果の高いデータスクラップのスケーリング
構造化されたデータと構造化されていないデータをインターネットからスクレイピングし、それを自分のモデルで利用するような喜びを私に与えるものはほとんどありません。 たとえば、Data Science Toolkit(またはRDSTKRプログラマー)を使用すると、IPまたはアドレスを使用して多くの適切なロケーションベースのデータを取得でき、tm.webmining.pluginfor Rのtmパッケージにより、財務データとニュースデータを簡単にスクレイピングできます。このような(半)構造化データを超える場合は、を使用する傾向がありますXPath。 ただし、許可されるクエリの数の制限により、私は常に抑制されています。Googleは24時間あたり約50,000件のリクエストに制限していると思いますが、これはビッグデータにとって問題です。 技術的な観点からは、これらの制限を簡単に回避できます。IPアドレスを切り替えて、環境から他の識別子を削除するだけです。しかし、これは倫理的および財政的な懸念の両方を示しています(私は思う?)。 私が見落としている解決策はありますか?