Googleボットによってインデックス化された数千万のページを取得する方法は?


12

現在、800万のユニークなページがあり、すぐに約2,000万、最終的には約5,000万以上に成長するサイトを開発しています。

批判する前に... はい、ユニークで有用なコンテンツを提供します。我々は継続的に公的記録からと、エンティティのロールアップをスクラブいくつかのデータを実行して生データを処理し、関係マッピングは、我々は、部分的に、またユニークな非常に便利とのサイトを開発し、質の高いコンテンツを生成することができました原因の広さにデータ。

PRは0(新しいドメイン、リンクなし)であり、1日あたり約500ページの速度でスパイダーされており、これまでに約30,000ページのインデックスが作成されています。このレートでは、すべてのデータのインデックス作成に400年以上かかります。

2つの質問があります。

  1. インデックス作成のレートはPRと直接相関していますか?つまり、PRの良い古いドメインを購入することで、実用的なインデックス作成レート(1日あたり100,000ページ程度)に到達するのに十分な相関があるということです。
  2. インデックス作成プロセス自体を支援することに特化したSEOコンサルタントはいますか。そうでなければ、特にページでSEOを非常にうまく活用しています。さらに、「ロングテール」キーワードフレーズの競争は非常に少ないため、成功は主にインデックスに登録されたページ数にかかっています。

当社の主要な競合他社は、Alexa 2000のようなランキングとともに、わずか1年で約20 MMページのインデックスを作成しました。

私たちが持っている注目すべき品質:

  • クリック可能なサイトリンクは、すべてのページを提供します。4ページ以下、通常は1ページに250(-ish)以下の内部リンクがあります。
  • 内部リンクのアンカーテキストは論理的であり、詳細ページのデータに階層的に関連性を追加します。
  • 以前、ウェブマスターツールでクロールレートを最高に設定していました(最大で2秒ごとに1ページのみ)。私は最近、「Googleに決定させる」ことを勧めました。


6
5,000万ページがユニークな有用なコンテンツを提供することを本当に望んでいます。ウィキペディアはあなたのサイトに比べてあまり多くの知識を欠いているので、今日はわずか350万ペー​​ジです[参考文献。en.wikipedia.org/wiki/File:EnwikipediaArt.PNG]
マルコデマイオ

3
:)皮肉を過ぎて見ると... Wikipediaを膨大な知識の源とするのはページ数ではありません-明らかに、はい-より有用です。私たちのサイトは、データベース内の個人のすべてのレコードのページと会社のすべてのレコードのページを生成します。データ分析とスクラブを使用して、ビジネスパートナー間の関係を動的に生成し、関連する人々や企業のビジネスネットワークをグラフィカルに描写します。ページ数は、保有するデータ量の関数です。検索で発見できるようにすることで、すべての人にとってより便利になります。ご意見ありがとうございます。
クリスアドラニャ

1
より多くのインリンクを取得することにより、より多くのページランクを取得します。pagerankがあるページからページにリンクします。
アレックスブラック

回答:


20

いくつかの潜在的な戦略:

  • Googleウェブマスターツールを使用すると、クロール速度の向上をリクエストできます。まだ行っていない場合は、それを試してください。
  • ナビゲーションアーキテクチャをもう一度見て、より多くのコンテンツへのアクセスを改善できないかどうかを確認してください。ユーザーの観点から見てください:ユーザーが特定の情報を見つけるのが難しい場合、検索エンジンにとっても難しいかもしれません。
  • 一貫性のないURLパラメーターまたはスラッシュの不適切な使用のために、コンテンツが重複していないことを確認してください。重複するコンテンツを排除することにより、Googlebotが既にインデックスに登録されているもののクロールに費やす時間を削減します。
  • 可能な限り、関連するコンテンツリンクとコンテンツ内のサイト内リンクを使用します。
  • 一部のリンクをランダム化します。ランダムな内部コンテンツを持つサイドバーは、使用するのに最適なパターンです。
  • 日付およびその他のマイクロフォーマットを使用します
  • 可能な限りRSSフィードを使用します。RSSフィードは、サイトマップとほぼ同じように機能します(実際、ウェブマスターツールでは、フィードをサイトマップとして送信できます)。
  • サイトマップについては、この質問をご覧ください。
  • コンテンツへの外部リンクを取得する方法を見つけます。これにより、インデックス作成のプロセスが加速される場合があります。コンテンツの種類に適している場合は、ソーシャルやメールで簡単に共有できるようにしておくと役立ちます。
  • データとデータへの外部リンクの使用を奨励するAPIを提供します。データ使用の要件として帰属リンクを設定できます。
  • コミュニティを受け入れます。適切な方法で適切な人に手を差し伸べると、ブログやTwitterを介して外部リンクを取得できます。
  • データの周りにコミュニティを作成する方法を探してください。ソーシャルにする方法を見つけてください。API、マッシュアップ、ソーシャルウィジェットはすべて役立ちますが、ブログ、コミュニティショーケース、フォーラム、ゲームの仕組みも役立ちます(このビデオも参照してください)。
  • インデックスを作成したコンテンツに優先順位を付けます。そのように多くのデータがあれば、そのすべてが絶対に不可欠というわけではありません。最も人気のあるコンテンツ、ROIを獲得できる可能性が最も高いコンテンツ、最も有用なコンテンツなど、最も重要なコンテンツについて戦略的な決定を下し、そのコンテンツが最初にインデックス化されるようにします。
  • 競合他社のコンテンツを詳細に分析して、コンテンツのインデックスを作成します。サイトのアーキテクチャ、ナビゲーション、外部リンクなどを見てください。

最後に、私はこれを言う必要があります。SEOとインデックス作成は、ビジネスサイトを運営するための小さな部分にすぎません。SEOのためにROIに集中しないでください。Googleからのトラフィックが多い場合でも、変換できないかどうかは関係ありません。SEOは重要ですが、視点を保つ必要があります。

編集

ユースケースの補遺として、各個人またはビジネスに対してレビューまたは推薦状を提供することを検討できます。また、StackOverflowのようなユーザーバッジを配布すると、少なくとも一部のユーザーがサイト上の自分のプロファイルにリンクするように誘導できます。これにより、外部のディープページへのリンクが促進され、インデックス作成が迅速になります。


1
+1-SEOはビジネスを促進するというより大きな問題の縮図であることに常に言及すること。迷子になりやすい(少なくとも技術的な知識を持つ人にとっては)最も簡単です。過去のどの時点よりも多くの人が現在テレビを視聴しています-提供内容によっては、テレビ広告の方が優れている場合がありますPPCよりROI ...
danlefree

microformatsの良いアイデア。これは特効薬ではありませんが、マイクロフォーマット標準を使用したセマンティックマークアップが役立つ多くの場所があります。
クリスアドラニャ

1
マイクロフォーマット(タイムスタンプの可能性を除く)がインデックス化の高速化を意味するかどうかはわかりませんが、それらを使用することで他のSEOの利点があるかもしれません。少なくとも、ページをクロールしやすくし、検索エンジンの結果ページでエントリを目立たせるのに役立ちます(microformatによって異なります)。
ヴィルトゥオーシメディア

5

Googleボットによってインデックス化された数千万のページを取得する方法は?

深夜のコンテンツ(特に、より深いコンテンツを指すサイトマップページまたはディレクトリインデックス)へのインバウンドリンクが同様の大規模なサイトから追加された場合、一晩で発生することはありませんが、より多くのページがより早くスパイダーされることを保証しますしばらく前からありました。

古いドメインで1日あたり100,000ページのインデックスを作成するのに十分ですか?

疑いの余地がありますが、長年にわたってかなりの量のアクティビティ(つまり、蓄積されたコンテンツとインバウンドリンク)があった古いドメインについて話しているのでなければ。

インデックス作成プロセス自体を支援することに特化したSEOコンサルタントはいますか。

あなたがそのように質問をするとき、あなたは大声で「はい」と宣言するSEOの多くを見つけると確信しています。しかし、結局のところ、Virtuosi Mediaの提案は、それらから得られるのと同じくらい良いアドバイスです(潜在的に悪いアドバイスは言うまでもありません)。

その音から、ビジネス開発と広報チャンネルを利用して、この時点でサイトのランキングを構築することを検討する必要があります-コンテンツへのリンクを取得します(できれば、地域をターゲットにしたコンテンツを提供する既存のサイトと提携して、たとえば、地域ごとに分割されたコンテンツ)、サイトを閲覧するユーザーを増やし(一部のユーザーはGoogleツールバーをインストールして、トラフィックページ発見に役立つようにします)、可能であれば、ニュースやコミュニティでビジネスについて話しますそれを必要とする人々の(特定のサービスに課金する予定の場合、興味を引くために無料試用期間の広告を検討してください)。


3

私が知っている2つの可能なオプションがあります。

1つ:驚くほどうまく機能する300万ページのWebサイトで試したちょっとしたトリックは、同僚がクロールループを作り出したことです。あなたのサイトに合うようにアイデアを少し操作する必要があるかもしれません。

基本的に、トラフィック(クリスマス)が増えるとは思わない日を設定し、サイト上のすべてのリンクのリストを文字通りコピーし、すべてのWebページで呼び出されるphpファイルにすべてのリンクを貼り付けました。(サイドバーphpファイル)

その後、Google検索コンソール(以前のgoogleウェブマスターツール)にアクセスし、URLを取得してそのURLページのすべてのリンクをクロールするようGoogleに指示しました。

非常に多くのリンクがあり、それらのリンク先のページにも大量のリンクがあるため、Googleは少しループして、サイトをより高速にクロールします。最初は懐疑的でしたが、魅力のように機能しました。

これを行う前に、非常に効率的なデータベース設定と非常に強力なサーバーがあることを確認する必要があります。そうしないと、ページの読み込み時間が遅くなり、サーバーが過負荷になるか、SEOが損なわれます。

それがあなたのためのオプションではない場合、あなたはいつでもGoogleのクラウドコンソールAPIを調べることができます。検索コンソールAPIがあるため、検索コンソールで各Webページを独自のWebサイトインスタンスとして追加するか、GoogleがURLを1つずつ取得するスクリプトを作成できます。

APIは非常に迅速に複雑になる可能性がありますが、正しく使用すると驚くべきツールになります。

幸運を!


1
ページをリンクすることは、ページをすべてクロールするための優れた戦略です。XMLサイトマップに依存しようとするよりもはるかに優れています。ただし、これらのリンクは、クリスマスの日ではなく、常にそのままにしておきます。リンクを削除するとすぐに、Googleはページがリンクを失ったことに気付き、それらのインデックス作成を停止します。
スティーブンオステルミラー

2

オンラインでの評判を重視する合法的なビジネスを運営している場合、システムのゲームは決して良いアイデアではありません。また、あなたのサイトが本当に価値を提供している場合、そのサイトが長い間(何らかのマーケティングを行っていると思いますか?)、より多くのバックリンクが発生するため、PRが上がり、クロールレートが上がります。

また、サイトに適切なリンク構造がある場合(すべてのページが妥当な数のクリック/リンクで検出可能)、サイトマップを介してメインインデックスのみを送信する必要があります。これらのページがGoogleによってインデックス登録されると、Googleによってクロールされ、Googleは残りのページを独自にインデックス登録します。


+1 RE:システムのゲーム- ウェブマスターが自分のサイトへの正当なバックリンク(訪問者にとって有用)を生成できるようにするシステムのゲームに代わるものがたくさんあることに注意すべきです。
danlefree

@danlefree:間違いなく。私は、期限切れのドメイン名を購入して残りのPR /トラフィックを取得することだけに言及しました。しかし、あなたのサイトを宣伝し、プレスリリースを出版物、アプリケーションレビューサイトなどに送ることができれば、それらは正当なバックリンクを生成する非常に良い方法です。
Lèseはmajesté

2

Googleウェブマスターツールで気付いたことの1つは、1秒あたり約2つのリクエストの最大クロールレートを許可することから開始することです。その後、約1週間かそこらで、Webサイトに頻繁にアクセスしていることがわかった場合、制限を増やすことができます。

500,000を超えるオリジナル画像をホストするWebサイトを共同運営していますが、1日あたり少なくとも700〜1000件のヒットが発生するため、最大制限は1秒あたり10件です。

したがって、クロールの制限を増やすことができるかどうかを毎週確認するために、ウェブマスターツールで確認することをお勧めします。クロールの制限を変更すると、特定の日が経過すると(インターフェースに表示されます)、Googleがクロールの制限をリセットして優先設定に戻します。その日、再び制限を引き上げます。


2

私はこの種のサイトの経験があります。私は何年も前に記事ディレクトリを実行しましたが、インデックス付けされたページの割合と実際に実行しているページの割合は、参照ドメインの数、つまりリンクしている一意のWebサイトの数にほぼ直接関係していました。それ自体で実行するためにリンクする合理的なドメイン。

確かに一晩で起こるわけではありませんが、それが起こる時間に1日あたり5から10の良いリンクを構築し、それからあなたは収入を生み出し、それを使ってリンクを構築するためにプロのSEO服を支払う立場になりますあなたのために。

現在、情報が豊富な同様のサイトを初期段階で構築していますが、1日あたり700〜1,000ページのクロールレートで、約400万ページのコンテンツについて同じ問題を抱えています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.