baiduが私のサイトをクレイジーにクロールするのはなぜですか


12

Apacheログを確認していると、baiduが過去2週間に1日10回ウェブサイトをクロールしていることがわかります。

私はそれを大事にしているわけではありませんが、なぜ彼がこれをしているのか本当に興味があります。これは、リンクがあまりない、非常に小さな単一ページのWebサイトです。

その背後に何か理由はありますか?

220.181.108.169 [10/Mar/2012:10:41:29 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
180.76.5.197 [10/Mar/2012:11:02:02 +0100] "GET / ...robots.txt +(+http://www.baidu.com/search/spider.htm)"
123.125.71.100 [10/Mar/2012:11:33:15 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.167 [10/Mar/2012:11:33:52 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.116 [10/Mar/2012:12:24:48 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.172 [10/Mar/2012:12:25:05 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.111 [10/Mar/2012:13:33:22 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.167 [10/Mar/2012:13:34:03 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.168 [10/Mar/2012:14:12:05 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.107 [10/Mar/2012:14:23:41 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.176 [10/Mar/2012:14:23:58 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.94 [10/Mar/2012:15:25:59 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.183 [10/Mar/2012:15:26:21 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.92 [10/Mar/2012:17:45:55 +0100] "GET / ...robots.txt +http://www.baidu.com/search/spider.html)"
123.125.71.71 [10/Mar/2012:17:45:57 +0100] "GET / ...robots.txt +http://www.baidu.com/search/spider.html)"
123.125.71.79 [10/Mar/2012:17:46:04 +0100] "GET / ...robots.txt +http://www.baidu.com/search/spider.html)"
123.125.71.103 [10/Mar/2012:17:47:32 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.179 [10/Mar/2012:17:48:37 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.108 [10/Mar/2012:18:37:21 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.185 [10/Mar/2012:18:38:13 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.96 [10/Mar/2012:19:25:50 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.169 [10/Mar/2012:19:25:59 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.101 [10/Mar/2012:20:25:51 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.176 [10/Mar/2012:20:26:09 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.105 [10/Mar/2012:21:33:38 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.178 [10/Mar/2012:21:34:15 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
180.76.5.170 [10/Mar/2012:21:57:39 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.98 [10/Mar/2012:22:26:13 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.175 [10/Mar/2012:22:26:33 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.104 [10/Mar/2012:23:34:09 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.169 [10/Mar/2012:23:34:48 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.171 [10/Mar/2012:23:52:22 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.168 [10/Mar/2012:23:52:22 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.110 [11/Mar/2012:00:33:52 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.184 [11/Mar/2012:00:34:27 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.103 [11/Mar/2012:02:37:21 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.177 [11/Mar/2012:02:37:58 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.97 [11/Mar/2012:03:34:30 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.172 [11/Mar/2012:03:35:07 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.107 [11/Mar/2012:04:35:33 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.178 [11/Mar/2012:04:36:16 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.115 [11/Mar/2012:05:34:31 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.187 [11/Mar/2012:05:35:12 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.97 [11/Mar/2012:06:24:17 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.181 [11/Mar/2012:06:24:32 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.112 [11/Mar/2012:07:40:27 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.187 [11/Mar/2012:07:41:17 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.95 [11/Mar/2012:08:29:42 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.175 [11/Mar/2012:08:30:07 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.105 [11/Mar/2012:09:35:23 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.184 [11/Mar/2012:09:36:05 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.106 [11/Mar/2012:10:39:32 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.165 [11/Mar/2012:10:40:11 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.171 [11/Mar/2012:11:23:57 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"

Baidu.comからオーガニックトラフィックを受け取りますか?いいえの場合、そのような帯域幅を消費している場合、私はクモをブロックします。
アナジオ

オーガニックトラフィックが何を意味するのかはわかりませんが、baidu検索エンジンを使用しているユーザーからの意味であれば、答えはいいえです。帯域幅やリソースをあまり必要としません。なぜbaiduがそんなにクロールするのか興味があります。
yokoloko

1
はい、それは私が言っていることです。それが多くの帯域幅を占有していなければ、継続しない限り心配しません。いつでもメールで送信できます。「Baiduspiderからの不当なアクセスを見つけた場合は、spiderhelp @ baidu.comでお知らせください」
アナジオ

1
検索エンジンのスパイダーをブロックするのは、現在受信しいないという理由だけでなく、検索トラフィックを受信したくない場合のみです。特に、バイドゥが市場で世界で3番目に大きい検索エンジンであることを考慮してください共有。
Lèseはmajesté

3
Baiduは、サイトのインデックスが十分になるまで非常に積極的です。Baiduであると主張するスクレーパーがあります。私はbotsvsbrowsers.comを使用してそれらを識別し、物事が手に入らなくなったときにそれらを禁止します。Yandexは同じ種類のトラフィックも生成できます。
Fiasco Labs

回答:


7

あまり心配する必要はないように思えますが、Googleは私のサイトのいくつかを同様の方法でクロールしますが、偽のボットである可能性があるため、以下のリンクをチェックしてください...

Baiduのスパイダーよくあるご質問(翻訳に建てられChromeのは)これが言っています: -

4. Baiduspiderがサイトを継続的にクロールするのはなぜですか?最新の情報を確実に提示するために、Baiduspiderは新しいページまたはサイトで頻繁に更新されるページをクロールします。ログをチェックして、Baiduspiderからのクロールが適切かどうかを確認してください。

Baiduspiderのふりをするスパマーやその他のトラブルメーカーによる過剰なクロールを回避するには、ログを確認できます。異常なクロールが見つかった場合は、spiderhelp @ baidu.comに連絡して、Baiduspiderのログを提供してください。

Baiduは独自のバージョンのウェブマスターツールを提供しています(ツール自体にアクセスするにはChromeの翻訳機能が必要になります)。おそらく、それらにサインアップすると回答が得られる可能性があります。Google WMTはクロールレートを管理するための限られた機能を提供しますが、おそらくそれらのツールは同様の機能を提供します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.