特別な動作を設定したくない場合、robots.txtファイルを持っていなくてもかまいませんか？

29

または、1つの欠如は有害ですか？

robots.txt

— ダン・ドゥミトル
ソース

30

robots.txtファイルがなくても害はありません。robotstxt.orgのWebサイトから：

すべてのロボットに完全なアクセスを許可するには

ユーザーエージェント：*
許可しない：

（または、空の「/robots.txt」ファイルを作成するか、まったく使用しないでください）

ただし、robots.txtファイルに何も指定していない場合でも、XMLサイトマップの場所を検索エンジンに通知するのに適しています。これを行うには、robots.txtファイルの先頭に次のような行を追加します。

サイトマップ：http : //www.example.com/sitemap-host1.xml

また、これがないと、Webログに多くの404エントリが作成されることに注意する必要があります。

— JasonBirch
ソース

+ 1-良い要約ですが、Kinopikoが既に正しく強調していることを本当に強調します：それらの404を避けるために最も基本的な、または空のものさえ作成してください（サイト404ページの処理に応じて）潜在的にかなりのトラフィック/帯域幅、検索エンジンは適切なHTTPキャッシュ制御を適用して、ファイルが変更されていない場合、空であろうとなかろうと、ファイルのダウンロードをスキップします。

— ステフェンオペル

wikiとしてマークされています。必要に応じて編集してください。

— ジェイソンバーチ

21

「robots.txt」がない場合、エラーログにはファイルに関する多くの404が記録されます。これは、ファビコンがない場合と同様に、一種の迷惑になる可能性があります。

1

優れたポイント...

— ジェフ・アトウッド

1

+1-大きくて騒がしいログファイルから自分を救うだけでなく、（サイトの404ページの処理によっては）ほとんどの404ページが原因でかなりのトラフィック/帯域幅を潜在的に回避できることを付け加えたい単純なrobots.txtファイルよりも大きく、適切なHTTPキャッシュ制御を適用する検索エンジンのためにダウンロード頻度が低くなります。

— ステフェンオペル

6

私はそれがだと思う持っているそれ以外の場合はウェブの巨大な帯状部分は、Webスパイダーによって非割り出し可能となり、OKであることを。

いいえrobots.txt、「みんなでインデックス化できるように」と同じであるrobots.txt定義によってほとんど。

— ジェフ・アトウッド
ソース

2

robots.txtファイルが存在しないため、クローラが処理できる内容と実行できない内容を決定します。あいまいさを避けるのに数秒しかかからないので、すべてのエージェントがすべてにアクセスできるようにするだけではどうでしょうか。

— ティムポスト
ソース

0

さて、サイトマップrobots.txtのアドレスが含まれているので、サイトマップがないと潜在的に有害です。

— トーマス・ボニーニ
ソース

サイトマップは、IMO、しかしウェブサイトの特定の種類に対してのみ有用である

— ジェフ・アトウッド

私はまた、クローラはrobots.txtの非存在下での/sitemap.xmlまたは/sitemap.gzを探して（特にグーグル）見てきた

— ティム・ポスト

robots.txtにサイトマップを用意する必要はありません。とにかくGoogle / Yahoo / Bingに送信できます。それは間違いなく「潜在的に有害」ではありません。

— 不機嫌なヤギ

0

コンテンツによっては、サイトのすべてのページが検索エンジンによってインデックス化されることを望んでいる限り、robotsファイルがなくても問題はありません。

— ショーン
ソース