Baiduspiderのクロール頻度を遅くすることは可能ですか？

18

Baiduクモのクロール頻度については、多くのことが行われています。本当です：「バイダスパイダーは狂ったようにい回る」。

私は一緒に働いているサイトでこの現象を経験しました。少なくとも1つの例では、BaiduがGoogleの約0.1％のトラフィックを配信しているという事実にもかかわらず、BaiduspiderがGooglebotとほぼ同じ頻度でクロールすることを発見しました。

サイトへのアクセスをできるだけ少なくしたいのですが（いつかは成長しますか？）、サーバーにこのような重い負荷をかけることを正当化することはできません。

上記のリンクされた質問に対する受け入れられた回答は、Baidu Webmaster Toolsがクロール速度を制限する機会を提供することを示唆していますが、（中国語のみの）ワームの可能性を開くことをheしています。

BWTでBaiduspiderのクロール速度を制限した経験はありますか？この負荷を制限する別の方法はありますか？

— サムテブランド
ソース

11

すばらしい質問です。バイドゥのクモは悪名高く攻撃的であり、サーバーからリソースを奪う可能性があるため、多くのウェブマスターが興味を持っているかもしれません...

BaiduのWeb Searchニュースで示されているように、Baiduスパイダーはクロール遅延通知設定をサポートしていません。代わりに、サイトに記載されているように、Baidu Webmaster Toolsプラットフォームでサイトを登録および確認する必要があります。これは、Baiduで直接クロール頻度を制御する唯一のオプションのようです。

問題は、他のスパムボットは、（上場Baiduのユーザーエージェントを使用することで、ここで自分のよくある質問の中で示されているように、あなたのサイトをスパイダーする番号2の下を）ここで百度と遅くクロール速度を要求することは、すべてを解決しないかもしれないので4番下。

したがって、BaiduのWebmaster Toolsを使用することに決めた場合は、Bots vs Browsers Databaseなどのリソースを使用するか、逆DNSルックアップを使用して、ユーザーエージェントと関連付けられていることが知られているIPとを比較することも賢明かもしれません

他の唯一のオプションは、すべてのBaiduユーザーエージェントをブロックし、Baiduからの潜在的なトラフィックを犠牲にするか、Apacheのmod_qosなどを使用して過剰なリクエストを制限することです。

ロケーション/リソース（URL）または仮想ホストへの同時リクエストの最大数。
URLへの1秒あたりの最大許容リクエスト数や1秒あたりのダウンロードされたキロバイトの最大/最小などの帯域幅の制限。
1秒あたりのリクエストイベントの数を制限します（特別なリクエスト条件）。
また、Webサーバーにアクセスする可能性のある非常に重要な人物（VIP）を制限なしで、または制限なしで「検出」できます。
不正な操作を拒否するための一般的な要求行とヘッダーフィルター。ボディデータの制限とフィルタリングを要求します（mod_parpが必要です）。
TCP接続レベルの制限。たとえば、単一のIPソースアドレスまたは動的なキープアライブ制御から許可される接続の最大数。
サーバーが空きTCP接続を使い果たした場合、既知のIPアドレスを優先します。

ロードが遅く、翻訳の問題がある（英語版でもない）Baidu Webmaster Toolsで報告された経験を見つけていません。それは役立つかもしれませんが、もちろん意見に基づいています。

— ダン
ソース

1

これは@Danにとって本当に役に立ちます。これらのソリューションをいくつか試してみてください（Baidu Webmaster Toolsは非常に苦痛です）。

— サムテブランド

1

ありがとう！すばらしい-他のオプションも見つけたら更新します。この質問は、攻撃的なボットに対する多くのウェブマスターの不満、およびそれらとの相互作用に関する懸念（Baidu Webmaster Toolsなど）を反映しています。合法的なボットがこれを考慮し、より良いツール/オプションが利用可能になることを願っています。

— ダン

@samthebrand and dan-報告してください！推奨できる他のソリューションを見つけましたか？

— -lazysoundsystem

5

これに関する多くの調査と実験の後、私は最終的に弾丸を噛み締めて、Baidu Webmaster Toolsアカウントを設定しました。別のウィンドウでGoogle翻訳を使用すると、非常に簡単に使用できます。通常のブラウザモードではキャプチャできないボタンから中国語のテキストをコピーして貼り付けるには、firebugをアクティブにする必要がある場合があります。

セットアップ後、クロールデータが表示されるまで数日待つ必要があります。その後、クロールレートをカスタマイズできます。このURLでアクセスできるはずの「圧力」というセクションに表示されます：http:
//zhanzhang.baidu.com/pressure/adjust?site= http %3A%2F%2Fwww.yourURL.com%2F
バイドゥウェブマスターツールアカウントを設定しており、問題のウェブサイトのアカウントにウェブサイトのURLを関連付けている場合のみ、このURLを使用できることに注意してください。ここには、現在のクロールレートが中央にあるスライダーが表示されます（私の場合、1日あたり12676リクエストです。クロールレートを下げるには、左にスライドします。

それが実際にあなたの要求を尊重するかどうかはまだわかりません。次のような警告が表示されます。「デフォルトのサイトのバイドゥクロールレートを使用することをお勧めします。ウェブサイトのクロールに問題がある場合にのみ、このツールを使用して調整します。サイトの通常のクロールを維持するため、バイドゥはクロールレートの調整を実際のそのため、お客様のリクエストに応じて調整することを保証できません。」

— user35703
ソース

1

これについての更新に感謝するのは私だけではないと確信しています-要求を尊重しますか？アカウントを作成することをお勧めしますか？

— -lazysoundsystem

クロール頻度調整ページへの直接URLを更新しました。これは、ウェブマスターツールにより深く埋まっているためです（メニューにはもうありません）。Google翻訳では、翻訳がわかりにくいため、検索が非常に困難になります;-)

— odony

-1

はい。robots.txtのCrawl-delayパラメーターを使用して、同じサーバーへの連続したリクエスト間で待機する秒数を設定できます。

User-agent: Baiduspider
Crawl-delay: 100

最初の行は、Baidu Webクローラーにのみコマンドを尊重するように指示しています。2行目は、サーバーへのリクエスト間の秒単位の待機時間です。必要に応じて遅延を追加できます。

これらのコマンドを既存のrobots.txtファイルに追加する必要があります。robots.txtファイルがまだない場合は、上記のコードをテキストファイルに追加し、robots.txtとしてファイルを保存し、ウェブサイトのルートフォルダーにアップロードして、以下のアドレスに表示されるようにします。

www.examplesite.com/robots.txt

— マックス
ソース

2

Baiduspiderはクロール遅延をサポートしていません。こちらをご覧ください。

— サムテブランド

おっと、それはいくつかのサイトのrobots.txtファイルで見たので、見たことがあると思います！それはどういうことですか？！

— マックス