CSSとJavaScriptのクロールに関するGoogleの発表後、Joomla robots.txtを変更する必要がありますか?


8

Googleからのお知らせを見つけました:http : //googlewebmastercentral.blogspot.in/2014/10/updating-our-technical-webmaster.html

それは述べています:

最適なレンダリングとインデックス作成のために、新しいガイドラインでは、ページが使用するJavaScript、CSS、および画像ファイルへのGooglebotのアクセスを許可する必要があることを指定しています。これにより、サイトに最適なレンダリングとインデックス作成が提供されます。サイトのrobots.txtでJavascriptまたはCSSファイルのクロールを禁止すると、Googleのアルゴリズムがコンテンツをどのようにレンダリングおよびインデックス化するかに直接悪影響を及ぼし、結果としてランキングが最適化されない可能性があります。

デフォルトでは、Joomlaのrobots.txtファイルには以下が禁止されています:

Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/

Googleの発表に基づいて、robots.txtファイルから以下の項目を削除しますか?

Disallow: /components/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/

これはJoomlaベースのサイトの発表に従って推奨されるものですか?


とにかくrobots.txt誰も(グーグルがあなたが禁止してはいけないことを要求しているので、検索エンジンでさえも)とにかくそれをフォローするつもりはないので、ただ片付けないのはなぜですか?
質問のオーバーフロー2014年

関連(重複なし):Robots.txt-CSSの許可または拒否
未発表

回答:


3

正直なところ、robots.txtからすべてを削除する方がよいでしょう。私が見る限り、JoomlaのすべてのPHPファイルには次の行が含まれています

defined('_JEXEC') or die;

つまり、ブラウザに直接PHPファイルをロードすると、空のファイルしか得られず、検索エンジンはこれを無視します。(あなたがそれらを直接リンクしない限り、彼らはとにかくこれらに遭遇するべきではありません。)

これらのディレクトリの一部をブロックしたままにしておくことの問題は、一部のコンポーネントおよびモジュールがCSS / JSファイルをそれぞれのディレクトリ内に保持し、優先メディアまたは画像フォルダー内に保持しないことです。

したがって、GoogleからJoomlaファイルをブロックする理由はありません。


ありがとう。しかし、私はわかります-Webmasterを介してページをフェッチすると、それらすべてのフォルダーへのアクセスが許可されていないにもかかわらず、正常にフェッチされます。disallowを削除すると、ページに何らかのメリットがありますか?
ギャグ

1
@Gaganよくわかりませんが、ウェブマスターツールのフェッチツールではrobots.txtが無視されます。
DisgruntledGoat 2014年

1
GWMTは両方を行います。グーグルとしてフェッチすると、グーグルがあなたのサイトをどう見るか、そしてユーザーがあなたのサイトをどう見るかを示します。@DisgruntledGoatは正しいです。何もブロックする必要はありません。
Brent Friar、2015

2

robots.txtよく管理されたJoomlaサイトでの、全体的な使用/不足とは別に、「優れた」サードパーティ拡張機能— CSS、JS、または画像を含める必要がある場所は次のとおりです。

/images
/media
/templates

そしてもちろん、それらのサブディレクトリ

したがって、それらをから削除するだけrobots.txtです。



1

WMTでGoogleとしてフェッチするときにエラーなしでページが表示される場合は、おそらく問題ありません。ただし、将来的には、Webサイトの一部のコンテンツをアップグレードする可能性があります。これにより、一部のブロックされたフォルダーからのスクリプト/ CSSが必要になります。したがって、CSS / JavaScriptを含むこれらすべてのフォルダーを検索エンジンでクロールできるようにするとよいでしょう。


1

Joomlaの最新バージョンでは、/media/および/templates/フォルダーがブロックされなくなりました。

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/

すべての拡張機能がCSSやJSファイルなどを配置する場所のガイドラインに準拠しているわけではないため、適切な回避策は、Googleがこれらのファイルの場所に関係なくアクセスできるようにすることです。

これを行うには、次のrobots.txtようにファイルの先頭に数行を挿入します。

#Googlebot
User-agent: Googlebot
Allow: *.css
Allow: *.js

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/

編集:

フィードバックをありがとう@ w3dkと@Stephen Ostermiller!たしかにそれは正しいね。次のようなことをする方が良いです:

User-agent: *
Allow: *.css
Allow: *.js
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/

残念ながら、これは意図したとおりに機能しないようです。長い(より具体的な)ルールが短いルールをオーバーライドし、許可行が無視されるためです。allow行がdisallow行に従うか、またはその逆かは、違いはないようです。

これを回避できるように思える唯一の方法は、ウェブマスターツールでテストすると機能するように見える次のようなことを行うことです。

User-agent: *
Allow: /************************************************************.css
Allow: /************************************************************.js
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/

編集2-最善の解決策:

OK、それで私はもう少し調査をして、https://stackoverflow.com/a/30362942/1983389で答えを見つけました

すべてのウェブクローラ全体で最も正しいとほとんどのサポートソリューションは、以下のようなもので表示されます(許可へのアクセス*.css*.js内のファイル/bin/cache/installation/language/logs、および/tmpフォルダと、おそらく他のフォルダのいくつかは、ほとんど意味がありません)。

User-agent: *
Allow: /administrator/*.css
Allow: /administrator/*.js
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Allow: /cli/*.css
Allow: /cli/*.js
Disallow: /cli/
Allow: /components/*.css
Allow: /components/*.js
Disallow: /components/
Allow: /includes/*.css
Allow: /includes/*.js
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Allow: /layouts/*.css
Allow: /layouts/*.js
Disallow: /layouts/
Allow: /libraries/*.css
Allow: /libraries/*.js
Disallow: /libraries/
Disallow: /logs/
Allow: /modules/*.css
Allow: /modules/*.js
Disallow: /modules/
Allow: /plugins/*.css
Allow: /plugins/*.js
Disallow: /plugins/
Disallow: /tmp/

2
これにより、Googlebotがすべてをクロールできるようになります。これは、元のrobots.txtファイルとはかなり異なります。その意図は何ですか。(ただし、これは単にグループのDisallow:下に含めるのと同じで、User-agent: Googlebot読みやすくなります。)
MrWhite

はい、その意図は、ウェブサイト上のすべてのCSSおよびJSファイルへのGoogleアクセスを許可することです。
Neil Robertson、

2
CSSおよびJSファイルだけでなく、Webサイト上のすべてのファイル。(?)
MrWhite

1
w3dkは正しいです。Googlebotの特別なセクションを追加する場合は、そのセクションの既存のルールをすべて複製する必要があります。提案されたrobots.txtファイルは、Googlebotがクロールできるようにし、/logs/他のボットによるクロールを防ぎます。
スティーブンオスターミラー
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.