GoogleがWebサイトからバイナリをダウンロードして帯域幅を使用するのはなぜですか？

2014年8月中旬以降、いくつかのGoogleサーバーが私のWebサイトにある（非常に）大きなバイナリファイルのすべてを週に1回程度ダウンロードしています。IPはすべてGoogleが所有しているものとして表示され、次のようになります：google-proxy-66-249-88-199.google.com。これらはGETリクエストであり、サーバーのトラフィックに大きな影響を与えています。

これまでは、これらのGoogleプロキシIPからのトラフィックは見られなかったため、これは比較的新しいもののようです。他のGoogle IPからのすべての種類のトラフィックが表示されますが、それらはすべてgooglebotおよびHEADリクエストのみです。

これらのファイルがすべてGoogleによってほぼ毎週ダウンロードされることを除いて、私はこれについて心配しません。使用される帯域幅が過剰になり始めています。

これらのファイルの多くはWindows実行可能ファイルであるため、おそらくGoogleがマルウェアスキャンを実行するためにそれらをダウンロードしているのではないかと推測しています。それが本当だとしても、それは本当に毎週起こる必要があるのでしょうか？

これまでの11月のGoogleプロキシIPからのトラフィックの例：

google-proxy-64-233-172-95.google.com: 8.09 GB
google-proxy-66-102-6-104.google.com: 7.50 GB
google-proxy-66-249-83-245.google.com: 3.35 GB
google-proxy-66-249-84-131.google.com: 1.54 GB
google-proxy-66-249-83-131.google.com: 4.98 GB
google-proxy-66-249-83-239.google.com: 2.48 GB
google-proxy-66-249-88-203.google.com: 2.94 GB
google-proxy-66-249-88-201.google.com: 2.58 GB
google-proxy-66-249-88-199.google.com: 4.89 GB

アップデート＃1：問題のファイルがすでにサイトのrobots.txtファイルにあることを忘れていました。robots.txtの設定が適切に機能していることを訴えるために、Googleウェブマスターツールのrobots.txtテスターも使用しました。これは、ファイルがすべてのGoogleボットに対して確実にブロックされていることを示しています。ただし、Adsbot-Googleは例外です。それがどちらなのか、よくわかりません。さらに、Googleで一部のファイルを検索しましたが、検索結果に表示されません。

更新＃2：例：11月17日の午前5時12分から午前5時18分の間、約6のIP（すべてgoogle-proxy）が問題のすべてのバイナリファイル（合計27）でGETを実行しました。11月4日の午後2時9分から午後2時15分の間、それらの同じIPは基本的に同じことを行いました。

更新＃3：この時点で、これらは有効なGoogle IPですが、Googleのプロキシサービスの一部であり、Googleのウェブクロールシステムの一部ではないことは明らかです。これらはプロキシアドレスであるため、GETリクエストが実際にどこから発生しているか、または1か所から送信されているのか、それとも複数の送信元から送信されているのかを判別する方法はありません。GETの散発的な性質に基づいて、悪質なことが行われているようには見えません。Googleのプロキシサービスを使用しているときに、すべてのバイナリをダウンロードすることを決めただけの可能性があります。残念ながら、そのサービスは完全に文書化されていないようで、役に立ちません。サイト管理者の観点から見ると、プロキシはかなり煩わしいものです。彼らは正当な用途があるので、私はそれらをブロックしたくありません。しかし、それらは誤用される可能性もあります。

google proxy bandwidth

— ブート13
ソース

良い質問。投票しました！確かにrobots.txtを使用してこれらをブロックする必要があります。Googleが実行可能ファイルをダウンロードする理由は私を超えています。あなたの理論は良いもののように思えますが、どういうわけか、頻度が原因で私はわかりません。奇妙に思えます。リストにgoogle-proxy-66-102-6-104.google.comがありませんが、これらは有効なGooglebot IPアドレスのようです。

— closetnoc 2014年

問題のファイルは既にサイトのrobots.txtファイルにあることを忘れていました。上記の更新＃1を参照してください。

— boot13 2014年

あなたは私を混乱させました。私は今すぐに請負業者を期待していますので、これについて考えなければなりません。Googleはドメイン名とIPアドレスの割り当てでおもしろいことをしていて、ホスティングやGoogleボットがGoogle IPアドレス空間に表示されるその他のGoogleサービスと一部重複していますが、Googlebot IPアドレスを使用しているのを見たことはありませんスペース。セキュリティシステムがこれらのIPアドレスを適切に信頼できるように、Googleがさまざまな検索プロセスに重複がないかほとんどないクリアなスペースを割り当てたいと思います。

— closetnoc 14年

私はこの質問についていくつかの調査を行ったところ、次のような興味深いシンが見つかりました。

1.偽のクローラーですか？-> /programming/15840440/google-proxy-is-a-fake-crawler-for-example-google-proxy-66-249-81-131-google-c

ユーザーからの結論：

これらの「クローラー」はクローラーではありませんが、Google検索エンジンで使用されるライブWebサイトプレビューの一部です。

私はこれを試してみました。プレビューに自分のWebサイトの1つを表示しました。そうです、ブロックされたIPメッセージを受け取りました。

ユーザーがWebサイトのプレビューを表示できるようにするには、これらの「クローラー」を受け入れる必要があります。

他の人が言ったように：「そのURLのルートドメインはgoogle.comであり、簡単に偽装することはできません」。

結論：これらのボットまたはクローラーを信頼でき、Google検索でプレビューを表示するために使用されます。

ライブプレビューがファイルをダウンロードしていないことがわかっているので、質問2に進みましょう。

2. Googleサービスの一部ですか？-> このGoogleプロキシは偽のクローラですか？google-proxy-66-249-81-131.google.com？

結論：

（ブロックされた）Webサイト（学校など）へのアクセスだけでなく、DOS攻撃や同様の活動にもGoogleサービス（Google翻訳、Googleモバイルなど）を使用している人がいると思います。

これについての私の推測は上記と同じです。誰かがGoogleサービスを使用して、翻訳者などのファイルにアクセスしようとしています。

あなたが言うように、ファイルがrobots.txtによって既にブロックされている場合、これは手動でのリクエストのみが可能です。

編集：OPコメントに広範囲に対処するには：

クローラーはrobots.txtを無視できますか？はい。ここだリスト私はGoogleがそれをするとは思わないが、それはGoogleのプロキシを使用して、他のボットことができることを意味し、。

それは悪いボットかもしれませんか？はい、そのために私はお勧めします：

.htaccess禁止：

 RewriteCond %{REMOTE_HOST} ^209.133.111..* [OR]
 RewriteCond %{HTTP_USER_AGENT} Spider [OR]
 RewriteCond %{HTTP_USER_AGENT} Slurp
 RewriteRule ^.*$ X.html [L]

このコードは、IPまたはユーザーエージェントを禁止できます。

または、ここで紹介されているスパイダートラップを使用する

これは手動によるリクエストであると私は考えています。

— Nunorbatista
ソース

私もそれらの答えを見ましたが、それらは私の特定の問題に対処していないようです。Googleプロキシが何らかの形で誤用されているのは正しいかもしれません。robots.txtについての私の理解は、クローラーソフトウェアは無視することを選択できるということです。友好的なボットはそれを尊重することになっていますが、ほとんどはそうですが、プロキシは（おそらく）異なります。

— boot13 2014年

@ boot13ただし注意してください。これらは有効なGooglebot IPアドレスです。したがって、ブロックする場合は、これらのファイルに対してのみブロックしてください。Apacheを使用している場合、.htaccessを使用してこれを実行できるはずです。ただし、他の問題が発生する可能性があるため、メッセージについてはGoogleウェブマスターツールに注意してください。

— closetnoc 14年

@ boot13回答を更新しました。アクセスが同じ日/時間に行われているか、ランダムであるかを確認できますか？

— nunorbatista 2014年

@nunorbatista：彼らはランダムに見えます。質問を何度か更新しました。

— boot13 2014年

@nunorbatista：上記の更新＃3を参照してください。Googlebotや他のクローラーではなく、Googleのプロキシサービスです。Googleのライブサイトプレビューとは関係ありません。おそらくローカルのブロックや制限を回避するために、1人以上の人がGoogleプロキシ経由でバイナリをダウンロードしたようです。トラフィックは明らかにボットではないため、スパイダートラップの提案が役立つ可能性は低いです。GoogleプロキシIPがバイナリを含むフォルダにアクセスするのをブロックしたいと思います。私はhtaccessコードを使用してみますが、もちろんダウンローダーは常に別のプロキシに切り替えることができるため、無意味な場合があります。

— boot13 2014年