Googlebotが何千ものリクエストをマップロケーターに送信し、APIクォータを使い果たす


10

お客様のサイトに店舗検索ページがあります。エンドユーザーが郵便番号と検索範囲を入力すると、Googleマップに結果が表示されます。

最近、サイト全体のトラフィックを著しく増加させることなく、サイトが無料のマップ検索制限(24時間あたり約25,000)に達していることに気づき始めました。追加のロギングをオンにして、何が問題なのかを調べてみました。

Googlebotがこの地図で何千もの検索を押し進めていることがわかります。これは小さなサンプルです:

2017-07-09 23:56:22,719 [7] INFO ShopLanding-[Thread 41] Google Maps:検索されたG23は66.249.66.221からOKを受け取りました
2017-07-09 23:56:35,469 [7] INFO ShopLanding-[スレッド10] Googleマップ:検索されたCA6は66.249.66.221からOKを受け取りました
2017-07-09 23:57:24,563 [7] INFO ShopLanding-[Thread 48] Google Maps:検索されたBN14は66.249.66.223からOKを受け取りました
2017-07-09 23:58:00,970 [7] INFO ShopLanding-[Thread 42] Google Maps:検索されたCB4は66.249.66.221からOKを受け取りました
2017-07-09 23:58:13,064 [7] INFO ShopLanding-[Thread 54] Google Maps:検索されたDY9は66.249.66.221からOKを受け取りました
2017-07-09 23:59:18,722 [7] INFO ShopLanding-[Thread 59] Google Maps:検索されたTS3は66.249.66.223からOKを受け取りました
2017-07-09 23:59:53,223 [7] INFO ShopLanding-[スレッド49] Googleマップ:検索されたS45は66.249.66.221からOKを受け取りました

Googleがこれほど多くのリクエストをプッシュできないようにする方法はありますか?これは無料手当のかなりの部分を食べています。正当な検索は1日あたり約200未満であるようです。

編集

このサイトはC#ASP.NET上に構築されています。ストア検索はPOSTを使用しており、URLは送信時に変更されません。この動作を確認するために、明日の朝にIISログのサンプルを投稿できます。


Googlebotが検索しているアイテムに意味はありますか?「G23」と「CA6」は私には何の意味もありません。Googlebotは通常、ランダムなデータをフォームに送信しません。通常は、ドロップダウンオプション、事前入力されたデータ、またはクエリリンクのみをクロールします。これらの値はサイトのどこかにリストとして含まれていますか?また、これらのリクエストに対してURLはどのように見えますか?
スティーブンオスターミラー

@StephenOstermillerは、英国の郵便番号の一部、具体的には地区IDです。これらはPOSTAJAXのリクエストである必要がありますが、IISログを確認します。
ブルギ2017

余談:これは「無料の地図検索」とは何ですか?
MrWhite、

1
@SamWeaver IPはGoogleボットとして解決され、対応するIISログエントリにはGooglebot UserAgentがあります。確かにそれらの両方は偽装することができます。
ブルギ2017

1
店舗検索でクエリ文字列(GETリクエスト)を使用していますか?店舗検索ページの大まかなURL構造とは何ですか。ユーザーの検索によって変更(クエリ文字列)されますか?機能/技術面についてもう少し詳しく説明できれば、より効果的な方法で答えることができます。
TopQnA 2017

回答:


11

googlebotがgooglemapsを介して検索しないようにするにrobots.txtは、ドメインのルートにという名前のファイルを配置します。例:https : //www.wikipedia.org/robots.txt

robots.txtの例:

User-agent: Googlebot
Disallow: /search-store/

/ search-store /は、Googleマップにリクエストを送信するページです。

Googlebot以外のものである場合は、このページへのすべてのクロールを無効にしてみてください。

User-agent: *
Disallow: /search-store/

robots.txtを無視するスクリプトの誤動作が止まることはありません。


10
とにかく、Googleや他の検索エンジンがこれらのページをスパイダーすることを望まないことに注意してください!
アリダビドウ2017

1
検索ストア全体をブロックすることが正しいオプションであるかどうかはわかりませんが、クエリ文字列などを理解する必要があるかもしれません。検索ストア全体をブロックするのが最後のオプションです。
TopQnA 2017

レート制限検索は別のオプションである場合があります。たとえば、25回の検索の後、各検索の間に1時間クールダウンする必要があるとします。それはボットと悪意のある人々を止めますが、通常のユーザーを止めません。
satibel 2017

ページが店舗の場所を検索するためだけのものである場合、そもそもインデックスに登録しておくと便利だと思います。それはサイトの構造に依存します。また、robots.txtは、レート制限に数時間かかるよりも、迅速な修正として実装するのが簡単/高速(したがって安価)です。@TopQnA
2017

まあ、ユーザーにとって店舗の場所は非常に重要であり、ほとんどの人はGoogleでの場所を参照して店舗を検索します。店舗ロケータが各店舗に固有のURLを持つ有用な情報を含むマップを生成できる場合、それは非常に便利です。ユーザー。そしてそれがブロッキングが最後の選択肢であるべき理由です。
TopQnA 2017
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.