規制上の理由で、インデックスに登録されない、または自動的に検索されないサイトがあります。これは、すべてのロボットを遠ざけ、サイトをスパイダーで防ぐ必要があることを意味します。
明らかに、最初からすべてを許可しないrobots.txtファイルがあります。ただし、robots.txtファイルの監視は、正常に動作するロボットだけが行うことです。最近、動作の悪いロボットにいくつかの問題がありました。いくつかのユーザーエージェントを禁止するようにApacheを構成しましたが、それを回避するのは非常に簡単です。
それで、問題は、ロボットのような動作を検出して応答するように(おそらくいくつかのモジュールをインストールすることによって)Apacheを構成するいくつかの方法がありますか?他のアイデアは?
現時点で私ができることは、ログの手動検査に基づいてIPアドレスを禁止することだけであり、これは単に実行可能な長期戦略ではありません。