HTTPエラー429（リクエストが多すぎる）Pythonを回避する方法

Question 1

Pythonを使用してWebサイトにログインし、いくつかのWebページから情報を収集しようとすると、次のエラーが発生します。

Traceback (most recent call last):
  File "extract_test.py", line 43, in <module>
    response=br.open(v)
  File "/usr/local/lib/python2.7/dist-packages/mechanize/_mechanize.py", line 203, in open
    return self._mech_open(url, data, timeout=timeout)
  File "/usr/local/lib/python2.7/dist-packages/mechanize/_mechanize.py", line 255, in _mech_open
    raise response
mechanize._response.httperror_seek_wrapper: HTTP Error 429: Unknown Response Code

私は使用time.sleep()しましたが機能しますが、インテリジェントで信頼性が低いようですが、このエラーを回避する他の方法はありますか？

これが私のコードです：

import mechanize
import cookielib
import re
first=("example.com/page1")
second=("example.com/page2")
third=("example.com/page3")
fourth=("example.com/page4")
## I have seven URL's I want to open

urls_list=[first,second,third,fourth]

br = mechanize.Browser()
# Cookie Jar
cj = cookielib.LWPCookieJar()
br.set_cookiejar(cj)

# Browser options 
br.set_handle_equiv(True)
br.set_handle_redirect(True)
br.set_handle_referer(True)
br.set_handle_robots(False)

# Log in credentials
br.open("example.com")
br.select_form(nr=0)
br["username"] = "username"
br["password"] = "password"
br.submit()

for url in urls_list:
        br.open(url)
        print re.findall("Some String")

Question 2

ステータス429の受信はエラーではありません。これは、リクエストのスパム送信を停止するように「親切に」要求している他のサーバーです。明らかに、リクエストの割合が高すぎるため、サーバーはこれを受け入れません。

これを「回避」したり、IPのなりすましを試みてサーバーのセキュリティ設定を回避しようとしたりする必要はありません。あまり多くのリクエストを送信しないことでサーバーの回答を尊重する必要があります。

すべてが適切に設定されている場合は、429応答とともに「Retry-after」ヘッダーも受け取ります。このヘッダーは、別の呼び出しを行う前に待機する秒数を指定します。この「問題」に対処する適切な方法は、このヘッダーを読み取り、その秒数だけプロセスをスリープさせることです。

ステータス429の詳細については、http：//tools.ietf.org/html/rfc6585#page-3を参照してください。

Question 3

このコードを書いて私の問題を修正しました：

requests.get(link, headers = {'User-agent': 'your bot 0.1'})

Question 4

MRAが言ったように、回避するのではなく、429 Too Many Requestsそれに応じて処理する必要があります。ユースケースに応じて、いくつかのオプションがあります。

1）プロセスをスリープ状態にします。サーバーは通常、Retry-after再試行する前に待機する必要がある秒数を含むヘッダーを応答に含めます。プロセスをスリープ状態にすると、タスクキューなどで問題が発生する可能性があることに注意してください。代わりに、後でタスクを再試行して、ワーカーを他のものに解放する必要があります。

2）指数バックオフ。サーバーが待機時間を教えてくれない場合は、一時停止を増やしてリクエストを再試行できます。人気のタスクキューCeleryには、この機能が組み込まれています。

3）トークンバケット。この手法は、特定の時間内に実行できる要求の数が事前にわかっている場合に役立ちます。APIにアクセスするたびに、最初にバケットからトークンをフェッチします。バケットは一定の割合で補充されます。バケットが空の場合は、APIに再度アクセスする前に待機する必要があることがわかります。トークンバケットは通常、もう一方の端（API）に実装されますが、これらをプロキシとして使用して、を取得しないようにすることもできます429 Too Many Requests。Celeryのrate_limit機能は、トークンバケットアルゴリズムを使用します。

以下は、指数バックオフとレート制限/トークンバケットを使用したPython / Celeryアプリの例です。

class TooManyRequests(Exception):
"""Too many requests"""

@task(
   rate_limit='10/s',
   autoretry_for=(ConnectTimeout, TooManyRequests,),
   retry_backoff=True)
def api(*args, **kwargs):
  r = requests.get('placeholder-external-api')

  if r.status_code == 429:
    raise TooManyRequests()

Question 5

別の回避策は、ある種のパブリックVPNまたはTorネットワークを使用してIPを偽装することです。これは、IPレベルでのサーバーのレート制限を想定しています。

urllib2とともにtorを使用する方法を示す簡単なブログ投稿があります。

http://blog.flip-edesign.com/?p=119

Question 6

if response.status_code == 429:
  time.sleep(int(response.headers["Retry-After"]))