回答:
そのファイルにより、すべてのクローラーがアクセスできるようになります
User-agent: *
Allow: /
これは基本的に、サイトのすべての部分(/)に対するすべてのユーザーエージェント(*)を許可します。
すべてのボットがすべてをクロールできるようにする場合は、robots.txtでこれを指定するための最良の方法です。
User-agent: *
Disallow:
このDisallow
フィールドには空の値があることに注意してください。これは仕様に従っていることを意味します。
空の値は、すべてのURLを取得できることを示します。
あなたの方法(のAllow: /
代わりにDisallow:
)も機能しますAllow
が、元のrobots.txt仕様の一部ではないため、すべてのボットでサポートされているわけではありません(Googlebotのように、多くの一般的なボットはサポートしています)。とはいえ、認識されないフィールドは無視する必要があります。認識しないボットのAllow
場合、結果はこの場合も同じです。つまりDisallow
、(を使用して)クロールが禁止されていない場合、すべてのクロールが許可されます。
ただし、正式には(元の仕様によれば)、少なくとも1つのDisallow
フィールドが必要であるため、これは無効なレコードです。
少なくとも1つのDisallowフィールドがレコードに存在する必要があります。
これはかなり古い質問であり、かなり良い答えがあることを理解しています。しかし、ここに完全さのために私の2セントがあります。
公式ドキュメントによれば、4つの方法があり、ロボットがサイトにアクセスするための完全なアクセスを許可できます。
@unorで言及されているように、Disallowセグメントを持つグローバルマッチャーを指定します。だからあなた/robots.txt
はこのように見えます。
User-agent: *
Disallow:
/robots.txt
中身のないファイルを作成します。デフォルトでは、すべてのタイプのすべてに対して許可されますBots
。
まったく作成しないでください/robots.txt
。上記の2つとまったく同じ結果が得られるはずです。
ロボットのメタタグに関するドキュメントから、サイトのすべてのページで次のメタタグを使用しBots
て、これらのページがインデックスに登録されていないことを知らせることができます。
<META NAME="ROBOTS" CONTENT="NOINDEX">
これをサイト全体に適用するには、すべてのページにこのメタタグを追加する必要があります。また、このタグはHEAD
ページのタグの下に厳密に配置する必要があります。このメタタグの詳細については、こちらをご覧ください。
つまり、すべての(*
)ユーザーエージェント/クローラーに/
サイトのルート()へのアクセスを許可します。大丈夫。