回答:
書くのrobots.txt
は難しい。ロボットは、クローラーのWebサイトのアーキテクチャを定義します。
通常、私は自分のウェブサイトに次のロボットを使用しています
# Website Sitemap
Sitemap: www.example.com/sitemap.xml
User-agent: Googlebot-Image
Disallow: /
Allow: /media/catalog/product/
# Crawlers Setup
User-agent: *
# Directories
User-agent: *
Disallow: /app/
Disallow: /cgi-bin/
Disallow: /downloader/
Disallow: /includes/
Disallow: /js/
Disallow: /lib/
Disallow: /media/
Disallow: /pkginfo/
Disallow: /shell/
Disallow: /skin/
Disallow: /var/
# Paths (clean URLs)
User-agent: *
Disallow: /index.php/
Disallow: /catalog/product_compare/
Disallow: /catalog/category/view/
Disallow: /catalog/product/view/
Disallow: /catalogsearch/
Disallow: /checkout/
Disallow: /control/
Disallow: /customer/
Disallow: /customize/
Disallow: /review/
Disallow: /sendfriend/
Disallow: /wishlist/
# Files
User-agent: *
Disallow: /cron.php
Disallow: /cron.sh
Disallow: /error_log
Disallow: /install.php
Disallow: /LICENSE.html
Disallow: /LICENSE.txt
Disallow: /LICENSE_AFL.txt
Disallow: /api.php
Disallow: /get.php
Disallow: /mage
# Paths (no clean URLs)
User-agent: *
Disallow: /*.js$
Disallow: /*.css$
Disallow: /*.php$
Disallow: /*?p=*&
Disallow: /*?SID=
robots.txtに関しては、inchooからの非常に素晴らしい記事があります。記事のリンクはInchoo Robots.txtの記事です
編集
新しいガイドラインに従って、Googleボットからjs / css / imagesを非表示にすることはお勧めしません。したがって、それらを許可しないのは間違いです。上記のロボットから以下のタグを削除してください
Disallow: /js/
Disallow: /media/
Disallow: /skin/
単純に、次のように、インストールのルートパスにrobots.txtファイルを作成します。
# Sitemap
Sitemap: http://example.com/sitemap.xml
# Google Images
User-agent: Googlebot-Image
Disallow: /
Allow: /media/catalog/product/
Allow: /media/wysiwyg/
# Crawlers Setup
User-agent: *
# Directories
Disallow: /404/
Disallow: /app/
Disallow: /cgi-bin/
Disallow: /downloader/
Disallow: /errors/
Disallow: /includes/
Disallow: /magento/
Disallow: /pkginfo/
Disallow: /report/
Disallow: /scripts/
Disallow: /shell/
Disallow: /skin/
Disallow: /stats/
Disallow: /var/
# Paths (clean URLs)
Disallow: /catalog/product_compare/
Disallow: /catalog/category/view/
Disallow: /catalog/product/view/
Disallow: /catalogsearch/
Disallow: /checkout/
Disallow: /control/
Disallow: /contacts/
Disallow: /customer/
Disallow: /customer/account/
Disallow: /customer/account/login/
Disallow: /customize/
Disallow: /newsletter/
Disallow: /onestepcheckout/
Disallow: /poll/
Disallow: /review/
Disallow: /sendfriend/
Disallow: /tag/
Disallow: /wishlist/
Disallow: /catalog/product/gallery/
# Files
Disallow: /api.php
Disallow: /cron.php
Disallow: /cron.sh
Disallow: /error_log
Disallow: /get.php
Disallow: /install.php
Disallow: /LICENSE.html
Disallow: /LICENSE.txt
Disallow: /LICENSE_AFL.txt
Disallow: /mage
Disallow: /README.txt
Disallow: /RELEASE_NOTES.txt
# Paths (no clean URLs)
Disallow: /*.js$
Disallow: /*.css$
Disallow: /*.php$
Disallow: /*?p=*&
Disallow: /*?SID=
Disallow: /*?dir*
Disallow: /*?mode*
Disallow: /*?limit*
# System files
Disallow: /CVS
Disallow: /*.git$
Disallow: /*.svn$
Disallow: /*.idea$
Disallow: /*.sql$
Disallow: /*.tgz$
# PHP
Disallow: /cgi-bin/
Disallow: /cleanup.php
Disallow: /apc.php
Disallow: /memcache.php
Disallow: /phpinfo.php
作成と構成robots.txt
は非常に簡単です。シンプルなテキストエディターで作成できます。ファイルの作成方法については、http://www.robotstxt.org/robotstxt.htmlこちらの最良の例をご覧くださいrobots.txt
。
Robots.txt
ファイルを作成したら、ウェブストアのルートディレクトリに送信することになっています。たとえば、ストアドメインがの場合、ファイルをドメインルートの下に配置し、アプリディレクトリもwww.example.com
配置する必要がありrobots.txt
ます。だから、座ってアクセスするwww.example.com/robots.txt
Magentoインストールのルートディレクトリの下にrobots.txtを配置します
robots.txtのデフォルトのルールは次のとおりです
User-agent: *
Disallow: /
----これにより、サイト全体がブロックされ、検索エンジンによるインデックス作成とクロールが行われます。そのため、検索エンジンによる検索を回避するフォルダーとファイルをより適切に定義します。
検索エンジンでクロールしたくないフォルダとファイルを定義する方法は次のとおりです
User-agent: *
Disallow: /catalogsearch/
Disallow: /checkout/
Disallow: /control/
Disallow: /contacts/
Disallow: /README.txt
Disallow: /sample.html
Disallow: /sample.php
Disallow: /sample.conf
Disallow: /sample_svn.
robots.txtで検索エンジンを定義することもできます
User-agent: Googlebot
User-agent: Slurp
User-agent: msnbot
User-agent: Mediapartners-Google*
User-agent: Googlebot-Image
User-agent: Yahoo-MMCrawler
サイトのクロールを許可する検索エンジンを定義する方法は次のとおりです
User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /
User-agent: Yahoo-slurp
Disallow:
User-agent: Msnbot
Disallow:
どちらの方法でも、サイトに関連する基本的な情報を入力するだけでrobots.txtをオンラインで生成できます。 http://www.robotsgenerator.com/