すべてのインデックス付きリンクのリストを取得するにはどうすればよいですか？

8

私は、Googleがインデックスに登録したすべてのリンクを取得して、CSVファイルにエクスポートする方法を探しています。最近、Googleでインデックスに登録されたページが実際にあるよりもはるかに多くなり、各検索結果ページを表示する必要なく、これらのすべてのページがどこから来ているのかを見つけたいと思っています。

seo google search-results

— リー
ソース

インデックスに登録されたページの数はどこから得ましたか？

— MrWhite 2012

Googleウェブマスターと検索site：domain.com

— リー

2

私が言えるのは、ウェブマスターツールで報告されるデータ（[健康]> [インデックスステータス]> [合計インデックス]）は、site：domain.com検索で報告されるデータよりも正確であることです。サイト：検索では常に私の経験でははるかに高い数値が返されますが、SERPをステップ実行すると、実際の結果数は「NNNNの結果について」の数値よりも少なくなります。

— MrWhite 2012

まあ、そのページが私がそもそもこれに興味を持った理由でした。3か月で、インデックスに登録されたページの数は27,000から567,000になりました。その理由を知りたいのですが。

— リー

6

残念ながら、Googleのすべてのインデックス付きページの完全なリストを取得する方法はありません。milo5bのソリューションでさえ、最大で1,000のURLしか得られません。

重複するコンテンツの問題があるようです。ウェブマスターツールで、[ヘルス]> [インデックスステータス]をチェックすると、時間の経過に伴ってインデックスに登録されたページの累計が表示されます。ある時点でグラフが大きく飛躍した場合は、サイトの特定の変更がジャンプのきっかけになった場合、問題を解決できる可能性があります。

Bingのウェブマスターツールを使用してみることもできます。彼らはあなたがURLを見つけるのを助けることができるインデックスエクスプローラーを持っています。検索エンジンのスパイダーは非常に似ているので、Googleがこれらのリンクを見つけた場合、Bingもおそらくそうしました。

Bingにはほとんどのデータをエクスポートする方法があると思いましたが、ざっと見ただけでは見つかりません。ただし、APIがあるため、おそらくそれを使用してすべてを抽出できます。

— 不満の山羊
ソース

Bingの提案に感謝しますが、インデックスに登録されているのは9,000ページのみであり、必要なリンクではないと確信しています。

— リー

8

結局、site：domain.com/foo/bar/を検索して問題のあるサブフォルダーまでドリルダウンしましたが、検索で、検索結果をExcelファイルに取得する方法に出くわしました。

Googleドキュメントのスプレッドシートを開き、次の式を使用します。

=importXml("www.google.com/search?q=site:domain.com&num=100&start=1"; "//cite")

最初の100件の結果のみを取得しますが、次の100件を取得するために再度使用できます。開始変数を変更するだけです。

=importXml("www.google.com/search?q=site:domain.com&num=100&start=100"; "//cite")

これは、前述のDisgruntledGoatによって言及されたように、最大1000の結果を提供しますが、特定のサブディレクトリからのリンクを提供するように式を変更できます。

= importXml（ "www.google.com/search?q=site:domain.com/foo/bar/&num=100&start=1"; "// cite"）

— リー
ソース

Googleドキュメントのヒント。余分なインデックス付きのページに関して実際の問題は何だったのだろうと思っているだけです-重複したコンテンツでしたか？

— MrWhite 2012

1

私が使用しているフォーラムソフトウェアであるvBulletinまでさかのぼります。彼らは、アクティビティストリームと呼ばれる新機能を追加し、ユーザーセクションに追加しました。したがって、すべてのユーザーは、自分のプロフィールのページだけでなく、自分が持っているすべての友達のすべてのアクティビティも表示します。vBulletinが404を返さなかったため、Googleの上に空白のアクティビティページのインデックスを作成していました。結局、セクション全体をインデックスに登録していませんでした。

— リー

importXMLは、次のリンクでアクティブ化できる古いスプレッドシートでのみ正しく機能します。g.co/ oldsheets

— i.amniels

2

GoogleのSERPを解析するスクリプト（PHP + Curlなど）を記述して、各リンクをCSVファイルに保存できます。これを悪用すると、Googleが数時間の間、検索結果からIPを禁止する可能性があるため、スクリプトが人間のように振る舞うように注意してください。

— milo5b
ソース