Robots.txtとサイトマップ—紛争で勝つ人

8

robots.txt内のディレクトリ/ fooをブロックしているが、xmlサイトマップに/ fooを含むURLが含まれている場合、サイトマップ内のURLはGoogleおよび他の検索エンジンによって取得されますか？つまり、サイトマップはrobots.txtに勝っていますか？そうだと思いますが、よくわかりません。

robots.txt xml-sitemap

— ネイサン
ソース

12

ノーロボット排除プロトコルに準拠した検索エンジンがクロールして任意の robots.txtの中で許可されていないURL、それが記載されている可能性があります他に関係なく。

ただし、Googleがインデックスを作成するために必ずしもURL をクロールする必要はありません。彼らが実際にそのURLにページがあるという十分な証拠があると信じている場合（そして、サイトマップのリストはそのような証拠としてカウントされる可能性が高い）、コンテンツなしでURLをインデックスに追加することを決定するだけかもしれません。Googleのウェブマスターツールのヘルプページを引用するには：

「Googleはrobots.txtによってブロックされたページのコンテンツをクロールしたりインデックスに登録したりしませんが、ウェブ上の他のページで見つかった場合は、URLをインデックスに登録することがあります。その結果、ページのURLと、場合によっては他のサイトへのリンクのアンカーテキストやオープンディレクトリプロジェクト（www.dmoz.org）のタイトルなどの公開情報は、Googleの検索結果に表示される可能性があります。」

このようなページは、URL自体に含まれている単語や、ページを指すリンクで使用されている単語などの検索結果として表示されます。

したがって、サイトマップにページをリストし、robots.txtにそれを許可しない場合、Google はそのページのURLではなく、そのコンテンツのインデックスを作成する可能性があります。

— イルマリ・カロネン
ソース

それであなたの答えは「いいえ」ではなく「はい」になりますね。:) robots.txtでディレクトリがブロックされているにもかかわらずURLを取得するため、あなたはそれに同意しているようです。

— Henrik Erlandsson、2014年

3

Robots.txtは、適合ボットが要求できるかどうかを定義します。特定のリンクがサイトマップに存在していても、robots.txtで許可されていない場合、ボットはそのリンクをリクエストできません。

サイトマップは必要ありません。サイトマップが提供されていても、クローラーはURLを無視して、そこにないものをクロールする場合があります。Googleウェブマスターツールでこれを確認できる場合、サイトマップ内のすべてのURLがクロールされるわけではなく、一部のURLがロボット化されているかどうかがわかります。

— イタイ
ソース

3

板井の答えは正しいので、それに追加する大きなことは何もありませんが、あなたの特定の質問に答えて...

サイトマップはrobots.txtに勝ることはできません。サイトマップは、Webサイトのクローラーに指示/ディレクティブを提供しません。それらは比較することさえできません。ロボットにアクセス/フォローしないように指示した場合/foo、ロボットの指示に従っているボットは、そこに到達するためにたどったパス（サイトマップなど）に関係なく、単にそのディレクトリにアクセスしません。

— ジゴジャコ
ソース

えーと...これは、Googleがドキュメントでクロールの処理方法について言っていることです。[absoluteURL]は、サイトマップ、サイトマップインデックスファイル、または同等のURLを指します。URLはrobots.txtファイルと同じホスト上にある必要はありません。複数のサイトマップエントリが存在する場合があります。非グループメンバーのレコードとして、これらは特定のユーザーエージェントに関連付けられておらず、許可されていない限り、すべてのクローラーが続く場合があります。

— zigojacko 2013年

3

Googleがrobots.txtファイルを適切に処理できる場合、サイトマップファイルに記載されているURLがrobots.txtファイルの有効な禁止ディレクティブに勝ることはありません。クロールが許可されていないURLは、Googlebotによってクロールされるべきではありません。

— John Mueller

0

Googleウェブマスターの場合：XMLサイトマップで、「robots.txtファイルにクロールできないリンクを設定しました。Googleはサイトマップではなくrobots.txtファイルを優先します。

— Asif Faridi
ソース