Github Wikiを検索エンジンでクロールできるようにするにはどうすればよいですか?robots.txtはそれを禁止しているようです


9

W3Cリンクチェッカーを使用しているときに、Github Wikiをクロールできないことがわかりました。

https://github.com/aegif/CmisSync/wiki/Getting-started-with-CmisSync-development
Status:(N / A)Forbidden by robots.txt

検索エンジンでこのWikiを簡単に見つけてもらいたいので、これは残念です。

質問: Github Wikiを検索エンジンでクロールできるようにするにはどうすればよいですか?
それとも私は間違っていて、Githubのrobots.txtは実際には大丈夫ですか?


1
答えはこの似た質問とほぼ同じだと思います。
John C

回答:


9

GitHub robots.txtは、Googlebotセクションなどで、Wikiページのクロールを明示的に禁止しています

User-agent: Googlebot
Allow: /*/*/tree/master
Allow: /*/*/blob/master
...
Disallow: /*/*/wiki/*/*

これはサイト全体のrobotsファイルなので、回避する方法はありません。

GitHub はwikiを「プロジェクトに関する長い形式のコンテンツを共有する」場所として説明しいるため、これは興味深い選択です。デフォルトでは、パブリックWikiはすべてのユーザーが編集できるため、おそらくスパマーからの強引な保護です。


0

GitHub wikiは、それをサポートするエンジンで検索できます。https://github.com/robots.txtの最初の2行をご覧ください

# If you would like to crawl GitHub contact us at support@github.com.
# We also provide an extensive API: https://developer.github.com/

これはおそらく、さまざまなwiki形式などを解析するためのものです。

たとえば、Googleで「openrefine broker protocol」を検索すると、最初のヒットはGithubプロジェクトwikiのページです。


それでは、なぜGoogle はOPのWikiではなく、Broker-Protocolの Wikiにインデックスを付けているのでしょうか。
Vidar S. Ramdal、2015
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.