回答:
ノーロボット排除プロトコルに準拠した検索エンジンがクロールして任意の robots.txtの中で許可されていないURL、それが記載されている可能性があります他に関係なく。
ただし、Googleがインデックスを作成するために必ずしもURL をクロールする必要はありません。 彼らが実際にそのURLにページがあるという十分な証拠があると信じている場合(そして、サイトマップのリストはそのような証拠としてカウントされる可能性が高い)、コンテンツなしでURLをインデックスに追加することを決定するだけかもしれません。Googleのウェブマスターツールのヘルプページを引用するには:
「Googleはrobots.txtによってブロックされたページのコンテンツをクロールしたりインデックスに登録したりしませんが、ウェブ上の他のページで見つかった場合は、URLをインデックスに登録することがあります。その結果、ページのURLと、場合によっては他のサイトへのリンクのアンカーテキストやオープンディレクトリプロジェクト(www.dmoz.org)のタイトルなどの公開情報は、Googleの検索結果に表示される可能性があります。」
このようなページは、URL自体に含まれている単語や、ページを指すリンクで使用されている単語などの検索結果として表示されます。
したがって、サイトマップにページをリストし、robots.txtにそれを許可しない場合、Google はそのページのURLではなく、そのコンテンツのインデックスを作成する可能性があります。
板井の答えは正しいので、それに追加する大きなことは何もありませんが、あなたの特定の質問に答えて...
サイトマップはrobots.txtに勝ることはできません。サイトマップは、Webサイトのクローラーに指示/ディレクティブを提供しません。それらは比較することさえできません。ロボットにアクセス/フォローしないように指示した場合/foo
、ロボットの指示に従っているボットは、そこに到達するためにたどったパス(サイトマップなど)に関係なく、単にそのディレクトリにアクセスしません。
Googleウェブマスターの場合:XMLサイトマップで、「robots.txtファイルにクロールできないリンクを設定しました。Googleはサイトマップではなくrobots.txtファイルを優先します。