MagentoでRobots.txtを設定するにはどうすればよいですか?


回答:


7

書くのrobots.txtは難しい。ロボットは、クローラーのWebサイトのアーキテクチャを定義します。

通常、私は自分のウェブサイトに次のロボットを使用しています

# Website Sitemap
Sitemap: www.example.com/sitemap.xml


User-agent: Googlebot-Image
Disallow: /
Allow: /media/catalog/product/

# Crawlers Setup
User-agent: *

# Directories
User-agent: *
Disallow: /app/
Disallow: /cgi-bin/
Disallow: /downloader/
Disallow: /includes/
Disallow: /js/
Disallow: /lib/
Disallow: /media/
Disallow: /pkginfo/
Disallow: /shell/
Disallow: /skin/
Disallow: /var/

# Paths (clean URLs)
User-agent: *
Disallow: /index.php/
Disallow: /catalog/product_compare/
Disallow: /catalog/category/view/
Disallow: /catalog/product/view/
Disallow: /catalogsearch/
Disallow: /checkout/
Disallow: /control/
Disallow: /customer/
Disallow: /customize/
Disallow: /review/
Disallow: /sendfriend/
Disallow: /wishlist/

# Files
User-agent: *
Disallow: /cron.php
Disallow: /cron.sh
Disallow: /error_log
Disallow: /install.php
Disallow: /LICENSE.html
Disallow: /LICENSE.txt
Disallow: /LICENSE_AFL.txt
Disallow: /api.php
Disallow: /get.php
Disallow: /mage


# Paths (no clean URLs)
User-agent: *
Disallow: /*.js$
Disallow: /*.css$
Disallow: /*.php$
Disallow: /*?p=*&
Disallow: /*?SID=

robots.txtに関しては、inchooからの非常に素晴らしい記事があります。記事のリンクはInchoo Robots.txtの記事です

編集

新しいガイドラインに従って、Googleボットからjs / css / imagesを非表示にすることはお勧めしません。したがって、それらを許可しないのは間違いです。上記のロボットから以下のタグを削除してください

Disallow: /js/
Disallow: /media/ 
Disallow: /skin/

3

単純に、次のように、インストールのルートパスにrobots.txtファイルを作成します。

# Sitemap
Sitemap: http://example.com/sitemap.xml

# Google Images
User-agent: Googlebot-Image
Disallow: /
Allow: /media/catalog/product/
Allow: /media/wysiwyg/

# Crawlers Setup
User-agent: *

# Directories
Disallow: /404/
Disallow: /app/
Disallow: /cgi-bin/
Disallow: /downloader/
Disallow: /errors/
Disallow: /includes/
Disallow: /magento/
Disallow: /pkginfo/
Disallow: /report/
Disallow: /scripts/
Disallow: /shell/
Disallow: /skin/
Disallow: /stats/
Disallow: /var/

# Paths (clean URLs)
Disallow: /catalog/product_compare/
Disallow: /catalog/category/view/
Disallow: /catalog/product/view/
Disallow: /catalogsearch/
Disallow: /checkout/
Disallow: /control/
Disallow: /contacts/
Disallow: /customer/
Disallow: /customer/account/
Disallow: /customer/account/login/
Disallow: /customize/
Disallow: /newsletter/
Disallow: /onestepcheckout/
Disallow: /poll/
Disallow: /review/
Disallow: /sendfriend/
Disallow: /tag/
Disallow: /wishlist/
Disallow: /catalog/product/gallery/

# Files
Disallow: /api.php
Disallow: /cron.php
Disallow: /cron.sh
Disallow: /error_log
Disallow: /get.php
Disallow: /install.php
Disallow: /LICENSE.html
Disallow: /LICENSE.txt
Disallow: /LICENSE_AFL.txt
Disallow: /mage
Disallow: /README.txt
Disallow: /RELEASE_NOTES.txt

# Paths (no clean URLs)
Disallow: /*.js$
Disallow: /*.css$
Disallow: /*.php$
Disallow: /*?p=*&
Disallow: /*?SID=
Disallow: /*?dir*
Disallow: /*?mode*
Disallow: /*?limit*

# System files
Disallow: /CVS
Disallow: /*.git$
Disallow: /*.svn$
Disallow: /*.idea$
Disallow: /*.sql$
Disallow: /*.tgz$

# PHP
Disallow: /cgi-bin/
Disallow: /cleanup.php
Disallow: /apc.php
Disallow: /memcache.php
Disallow: /phpinfo.php

2

作成と構成robots.txtは非常に簡単です。シンプルなテキストエディターで作成できます。ファイルの作成方法については、http://www.robotstxt.org/robotstxt.htmlこちらの最良の例をご覧くださいrobots.txt

Robots.txtファイルを作成したら、ウェブストアのルートディレクトリに送信することになっています。たとえば、ストアドメインがの場合、ファイルをドメインルートの下に配置し、アプリディレクトリもwww.example.com配置する必要がありrobots.txtます。だから、座ってアクセスするwww.example.com/robots.txt


1

Magentoインストールのルートディレクトリの下にrobots.txtを配置します

robots.txtのデフォルトのルールは次のとおりです

User-agent: *
Disallow: /

----これにより、サイト全体がブロックされ、検索エンジンによるインデックス作成とクロールが行われます。そのため、検索エンジンによる検索を回避するフォルダーとファイルをより適切に定義します。

検索エンジンでクロールしたくないフォルダとファイルを定義する方法は次のとおりです

User-agent: *
Disallow: /catalogsearch/
Disallow: /checkout/
Disallow: /control/
Disallow: /contacts/
Disallow: /README.txt
Disallow: /sample.html
Disallow: /sample.php
Disallow: /sample.conf
Disallow: /sample_svn.

robots.txtで検索エンジンを定義することもできます

User-agent: Googlebot
User-agent: Slurp
User-agent: msnbot 
User-agent: Mediapartners-Google*
User-agent: Googlebot-Image 
User-agent: Yahoo-MMCrawler

サイトのクロールを許可する検索エンジンを定義する方法は次のとおりです

User-agent: *
Disallow: /

User-agent: Googlebot
Allow: /

User-agent: Yahoo-slurp
Disallow: 

User-agent: Msnbot
Disallow:

どちらの方法でも、サイトに関連する基本的な情報を入力するだけでrobots.txtをオンラインで生成できます。 http://www.robotsgenerator.com/

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.