Googleがsitemap.xmlからのページのインデックス作成を停止したのはなぜですか?


18

私たちにはいくつかのページがありますsitemap.xmlが、Googleの公開検索インデックスに不可解に欠けています。

/superuser//sitemap.xmlをダウンロードすることはできません-過去に問題が発生したため、このファイルは保護されていますが、googlebotはできます。Googleウェブマスターツールを使用して、sitemap.xmlファイルが今日プルダウンされ、エラーなしで正常に評価されていることを確認しました(緑色のチェックマーク)。

代替テキスト

sitemap.xmlは、私たちのサイトで尋ねられた最後の50,000の質問のリストが含まれています。たとえば、この質問...

/superuser/201610/how-to-see-the-end-of-a-long-chain-of-symbolic-links

... sitemap.xmlとして存在します...

<url>
<loc>/superuser/201610/how-to-see-the-end-of-a-long-chain-of-symbolic-links</loc>
<lastmod>2010-10-20</lastmod>
<changefreq>daily</changefreq>
<priority>0.2</priority>
</url>

「シンボリックリンクの長いチェーンの終わりを確認する方法」を検索すると、 questionhub.comにデータをスクレイピングしている結果が1つだけ表示されます(まったく別の問題)。

質問カウント数を増やして、質問タイトルを正確に検索すると、このパターンが持続することがわかります。

これらのURLはある sitemap.xmlとが、彼らはGoogleのインデックスに表示されない-とまだ彼らは私たちのクリエイティブ・コモンズのデータをこすりサイト上に表示されます。どうしてですか?


5
Googleウェブマスターセントラルフォーラムでいつでも質問できます。google.com/support/forum/p/Webmasters?hl=ja
アレックスブラック

間違いがあります。この質問は既にGoogleで索引付けされていますが、スーパーユーザーSTILLに関するリンクされた質問は索引に表示されません。
マイケルプライアー

ジェフは、マット・カッツにただ質問することを考えるかもしれません。私は彼らがツイッターで数回互いに話しているのを見た。彼は通常、かなり喜んで助けてくれます。
Virtuosi Media

3
FWIW現在、一部のサイトで新しいコンテンツのインデックスを作成する際に問題が発生しています。これについては、google.com / support / forum / p / Webmasters /のヘルプフォーラムにスレッドがあります。言及したURLが影響を受けているようです。これはまもなく解決されると思いますが、修正可能な時間枠はありません。お待ち頂きまして、ありがとうございます。
ジョンミューラー

1
これは現在解決されているようです:-)。サイトからいくつかの新しい質問を試してみましたが、それらはすべて索引付けされていました。すごい!
ジョンミューラー

回答:


10

Googleは、今週その音をいくつかの技術的なクロールの問題を抱えていたように見え著しく、我々が経験したもののように:

http://searchengineland.com/is-google-broken-sites-big-small-seeing-indexing-problems-53701

多くのサイト所有者が困惑しているGoogleインデックス作成の問題から免れている人はいないようです。ブログとWebサイトは、大小を問わず、通常のように迅速にインデックス化されていません-インデックス化されている場合。

...

Googleのジョンは、ウェブマスターフォーラムのスレッドに次のように返信しました。

明確にするために、このスレッドからの問題は、私が詳細に検討したが、ポリシーの変更やアルゴリズムの変更によるものではありません。それらは私たちの側の技術的な問題によるもので、可能な限り早く解決されます(ただし、すべてのサイトで表示されるまでに数日かかる場合があります)


7

Googleは、サイトマップ内のページがインデックスに登録されることを一切提供または保証しません。

私の経験では、ページを表示するには(ある権限のページから)リンクする必要があります。そのページ/質問は、何らかの権限を持つページから直接/間接的にリンクされていますか?

たとえば、superuser.comホームページ(おそらく多くのインリンクがある)がこの質問に直接リンクしている場合、または他の多くのページを介して間接的にリンクしている場合、インデックスが作成されると期待できます。

グーグルから:

Googleは、すべてのURLをクロールまたはインデックス登録することを保証しません。ただし、サイトマップのデータを使用してサイトの構造を把握します。これにより、クローラのスケジュールを改善し、今後サイトをより適切にクロールできるようになります。ほとんどの場合、ウェブマスターはサイトマップを送信することで利益を得ることができ、いかなる場合でもペナルティが科せられることはありません。

http://www.google.com/support/webmasters/bin/answer.py?hl=ja&answer=156184


4
スーパーユーザーは、サイトマップの有無にかかわらず、これらのページのインデックスを作成するために十分なリンクとPRを持っている必要があります。また、マイナーページは常にリストされます。実際、インデックスの大部分を占めています。他の何かが犯人だと思う。
ジョンコンデ

同意して、このサイトには多くのPRとインリンクがあります。しかし、問題のページにインリンクがない可能性はありますか?superuser.com(偶然)がページにリンクしない場合、それはGoogleに何を伝えますか?ページは重要ではないという。
アレックスブラック

2
このページは間違いなくフロントページからリンクされており、他の多くのページからリンクされ続けています。SEサイトは非常にクロスリンクが重いです。
ケビンモントローズ

1
昨日のある時点で、テスト用の質問のヒットの1つはsuperuser.comホームページでした。ターゲットURLはGoogleキャッシュでも表示されています。それでも、質問自体は索引付けされていません。非常に奇妙な。
ジェフアトウッド

2
絶対に-ホームページの[ホット]タブ、または[毎週]または[毎月]タブをクリックします。すぐそこに...
ジェフ・アトウッド

3

グーグルはあなたのウェブページをインデックス化するのに苦労しているかもしれないと思う、50.000はたくさんある。私の提案は、サイトマップを次のように細分化することです。

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <sitemap>
      <loc>http://www.example.com/sitemap1.xml.gz</loc>
      <lastmod>2004-10-01T18:23:17+00:00</lastmod>
   </sitemap>
   <sitemap>
      <loc>http://www.example.com/sitemap2.xml.gz</loc>
      <lastmod>2005-01-01</lastmod>
   </sitemap>
</sitemapindex>

故障した場合は、これらの50.000のURLのインデックスが作成される可能性が高くなります。

Sitemaps.orgの問題の説明

複数のサイトマップファイルを提供できますが、提供する各サイトマップファイルは50,000個以下のURLを持ち、10MB(10,485,760バイト)以下でなければなりません。必要に応じて、gzipを使用してサイトマップファイルを圧縮し、帯域幅の要件を減らすことができます。ただし、非圧縮のサイトマップファイルは10 MB以下でなければなりません。50,000個を超えるURLをリストする場合は、複数のサイトマップファイルを作成する必要があります。

複数のサイトマップを提供する場合、各サイトマップファイルをサイトマップインデックスファイルにリストする必要があります。サイトマップインデックスファイルは、50,000個を超えるサイトマップをリストすることはできません。また、10MB(10,485,760バイト)以下でなければならず、圧縮できます。複数のサイトマップインデックスファイルを作成できます。サイトマップインデックスファイルのXML形式は、サイトマップファイルのXML形式と非常によく似ています。

http://sitemaps.org/protocol.php


2
50,000ページのサイトマップは非常に一般的です。実際、最近、誰かがウェブマスターアカウントからスクリーンショットを投稿し、Googleがそれらのページのほぼ50,000個すべてのインデックスを作成したことを示しています。また、他のサイトよりもスーパーユーザーの方が人気がある(リンクの人気が高いなど)と思います。
ジョンコンデ

1
「リストする50,000を超えるURLがあります。これは、1つのサイトマップに含めることができる最大数です。」sitemaps.blogspot.com/2005/08/using-sitemap-index-files.html
ジェフ・アトウッド

1
毎日終了するサイトマップを毎日持っている場合、サイトマップを再度評価する必要がないように、彼らはすでに変更のためにインデックス付けされているリンクをクロールできるので、Googleはトラフに行く必要はありません毎日50,000個のURLで、古いものと新しいものを確認できます。
セヴキ

@sevkiのACTIVITY DATEまでに最も古い50,001番目の質問(この日付に新しい回答、編集などがバンプされます)は、サイトマップに含まれません。スーパーユーザーの質問数は合計で55,000にすぎないことに注意してください。
ジェフアトウッド

@JeffがSO.comには1,014,782があり、964,782はサイトマップにないので、Googleまたはbingは最後に変更されたのがいつかを知りません。とにかく手伝おうとするだけで迷惑になりたくないので、詳細をメールで送りました。
Sevki

2

Googleは、46,514の投稿されたリンクインデックスにあると述べているようです。それは(私はそれを言うのは嫌いですが)ページのランキングの問題かもしれませんか?スクレイピングサイトは、クロスリンクなどにより良い仕事をしており、上位にランク付けされている可能性があります。ちょっとした考え。

このsearch site:superuser.comシンボリックリンクの長いチェーンの終わりを確認する方法は、予想される結果を返さないにもかかわらず、sitemap.xmlを正しくフェッチしているようにも見えます。


このスクレイピングサイトは、元の作成者としてsuperuser.comに属性を付与します(より明確に説明することもできますが)ので、Googleは自分がコンテンツの元の作成者であることを知り、スクレイピングサイトよりも優先します。
ジョンコンデ


キャッシュされたサイトマップは、「2010年10月17日05:40:35 GMTに表示されたとおり」、これを書いている時点の4日前なので、あまり多くありません。キャッシュされたsitemap.xmlでいくつかのURLを確認しましたが、それらはgoogleの質問ページとしても存在します。
ジェフアトウッド

@johnは、彼らがどのように属性を与えるかの例を与えることができます。THX
グレッグ・B

@グレッグ、スーパーユーザーのロゴを探すだけ
ジョン・コンデ

2

このタイプのものには、多くの潜在的な答えがあります。

まず、実際に何ページあるかを尋ねることから始めます。(クイックサイトに50,000個のURLを送信しました:superuser.comは125,000個のインデックスを作成しています。5万個のURLしかなく、すべてを送信していますが、Googleは各ページのコピーを2〜3個見つけていますか? %がインデックスに登録されています)全体像を把握することは、どこで問題を探すかを指示するのに役立ちます。

ステップ1に問題がないようであれば、コンテンツに移ります。すべてのコンテンツがスクレイプされているにもかかわらず、QHのページにはさらに多くのコンテンツがあり、他の多くの「リソース」とリンクしているようですより多くのリソース/情報をユーザーに提供するため、ページはより便利です。彼らが権威とみなされ、あなたのコンテンツがすべて彼らのものと同じである場合、あなたがオリジナルであってもGoogleはあなたのものをインデックスに登録しない可能性があります。

高品質のリンクを作成することが問題ではないと確信している場合は、人気のある従業員のブログにこの質問を投稿するか、友人にブログを依頼してください。ケーススタディなど

多数の強力なリンクを取得しても、ペナルティが科せられる可能性があるため、インデックスに登録されていない場合(ほとんどの場合、これは問題になりませんが、チェックするのに苦労することはありません)。

これが機能しない場合、10回のうち9回は見過ごされている単純な技術的な問題です(ロボットの除外など)。

これを行ってもまだ答えが見つからない場合は、Googleに尋ねて、答えが得られることを願ってください。


0

質問は昨日尋ねられました-googlebotにチャンスを与えてください、あなたが彼がyaをクロールしなければならないインターネット上の唯一のサイトではありません:)

通常、1日以内に質問のインデックスが作成され、1週間経ってもその質問のインデックスが作成されない場合は、気になるかもしれません。しかし、確かに1日後ではありません。


1
通常、1時間以内に表示されます。だから私は同意する、私はそれに時間を与えるべきだが、その通常の頻度に比べて...私は持っています。
マイケルプライアー

@michaelは、リンゴとリンゴを比較していることを確認してください-Googleは、他のサイトよりもかなり高いレートでstackoverflow.comをインデックスに登録しているようです。
ジェフアトウッド
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.