2014年8月中旬以降、いくつかのGoogleサーバーが私のWebサイトにある(非常に)大きなバイナリファイルのすべてを週に1回程度ダウンロードしています。IPはすべてGoogleが所有しているものとして表示され、次のようになります:google-proxy-66-249-88-199.google.com。これらはGETリクエストであり、サーバーのトラフィックに大きな影響を与えています。
これまでは、これらのGoogleプロキシIPからのトラフィックは見られなかったため、これは比較的新しいもののようです。他のGoogle IPからのすべての種類のトラフィックが表示されますが、それらはすべてgooglebotおよびHEADリクエストのみです。
これらのファイルがすべてGoogleによってほぼ毎週ダウンロードされることを除いて、私はこれについて心配しません。使用される帯域幅が過剰になり始めています。
これらのファイルの多くはWindows実行可能ファイルであるため、おそらくGoogleがマルウェアスキャンを実行するためにそれらをダウンロードしているのではないかと推測しています。それが本当だとしても、それは本当に毎週起こる必要があるのでしょうか?
これまでの11月のGoogleプロキシIPからのトラフィックの例:
google-proxy-64-233-172-95.google.com: 8.09 GB
google-proxy-66-102-6-104.google.com: 7.50 GB
google-proxy-66-249-83-245.google.com: 3.35 GB
google-proxy-66-249-84-131.google.com: 1.54 GB
google-proxy-66-249-83-131.google.com: 4.98 GB
google-proxy-66-249-83-239.google.com: 2.48 GB
google-proxy-66-249-88-203.google.com: 2.94 GB
google-proxy-66-249-88-201.google.com: 2.58 GB
google-proxy-66-249-88-199.google.com: 4.89 GB
アップデート#1:問題のファイルがすでにサイトのrobots.txtファイルにあることを忘れていました。robots.txtの設定が適切に機能していることを訴えるために、Googleウェブマスターツールのrobots.txtテスターも使用しました。これは、ファイルがすべてのGoogleボットに対して確実にブロックされていることを示しています。ただし、Adsbot-Googleは例外です。それがどちらなのか、よくわかりません。さらに、Googleで一部のファイルを検索しましたが、検索結果に表示されません。
更新#2:例:11月17日の午前5時12分から午前5時18分の間、約6のIP(すべてgoogle-proxy)が問題のすべてのバイナリファイル(合計27)でGETを実行しました。11月4日の午後2時9分から午後2時15分の間、それらの同じIPは基本的に同じことを行いました。
更新#3:この時点で、これらは有効なGoogle IPですが、Googleのプロキシサービスの一部であり、Googleのウェブクロールシステムの一部ではないことは明らかです。これらはプロキシアドレスであるため、GETリクエストが実際にどこから発生しているか、または1か所から送信されているのか、それとも複数の送信元から送信されているのかを判別する方法はありません。GETの散発的な性質に基づいて、悪質なことが行われているようには見えません。Googleのプロキシサービスを使用しているときに、すべてのバイナリをダウンロードすることを決めただけの可能性があります。残念ながら、そのサービスは完全に文書化されていないようで、役に立ちません。サイト管理者の観点から見ると、プロキシはかなり煩わしいものです。彼らは正当な用途があるので、私はそれらをブロックしたくありません。しかし、それらは誤用される可能性もあります。