サイトマップファイルはする検索エンジンを支援し、新規および更新されたURLを発見し、あなたのウェブサイトで。特に、あなたのウェブサイトがかなり大きい場合、これは、何かを変更するためにすべてを盲目的にクロールする代わりに、新しいコンテンツと更新されたコンテンツに集中できるようにします。その結果、新しいコンテンツがはるかに高速に検出される可能性があります。これは、特にサイトが大規模で複雑な場合に顕著になります。
特にGoogleでは(私はGoogleで働いています。他の検索エンジンがこれらをどのように処理するかわかりません)、次のことも行います。
- Webサイトのインデックス付きURLの数を確認します。これらの統計は毎日再計算され、非常に正確です。これらはサイトマップの詳細ページで見つけることができます。
- 正規化の問題を発見する:数値が一致しない場合、それはサイトマップファイルでクロール中に見つかったものと一致しないURLを指定していることを示しています。これは通常、正規化に取り組む必要があることを示しています。
- 正規化の支援:同じコンテンツを示す複数のURLがサイトで見つかった場合、他の正規化方法を使用しなくても、サイトマップにリストされているURLに余分なエッジを追加します。
- サイトの不適切にインデックス付けされた部分を見つける:これらのカウントはサイトマップファイルごとに提供されるため、サイトの論理セクション用に個別のサイトマップファイルを作成して、Googleが必要なだけインデックス付けしていない領域を見つけることができます。
- クロールエラーに優先順位を付ける:ではクロールエラーのセクション、サイトマップファイルで指定されたURLは、個別に記載されています。これらのURLを明確に指定したため、インデックスを作成し、そこにあるクロールエラーが重要であると想定しています。
さらに、サイトマップファイルでいくつかの拡張機能を使用できます(画像、ビデオ、ニュース、国際化など)。これらの拡張機能はすべてオプションです。
ほとんどのウェブサイトで、サイトマップファイルの最も目立つ要素は、インデックス付きURLカウントを表示できることです。表示されるまでに1日程度かかる場合があるため、初めてサイトマップを送信したばかりの場合は、少し我慢する必要があります。他の方法(例:site:-query)は非常に大まかな近似ですが、このカウントは非常に正確です。
編集して追加:サイトマップに関して私が個人的に非常に役立つと思うもう1つのことは、CMSで直接生成しない場合、常にWebサイトがどのようにクロール可能か、どのようなURLが検出されるかについて多くのことを知ることですそのプロセス中に。サイドのツール(サイトマップジェネレーターなど)を使用してWebサイトをクロールすると、URLのセッションID、URLの違いによるコンテンツの複製、無限のスペース(たとえば、無限のカレンダーとして)、またはまったくリンクされていないサイトの一部です。