XML、HTML、およびXHTMLドキュメントの正しいコンテンツタイプは何ですか?
これらの種類のファイルのみをフェッチする単純なクローラーを作成する必要があります。
現在、http://example.net/index.htmlは、たとえばmod_rewriteによりJPEGファイルを提供できるため、応答ヘッダーからコンテンツタイプを確認し、許可されたコンテンツタイプのリストと比較する必要があります。
そのようなリストはどこから入手できますか?
フラグメントについては、stackoverflow.com / q
—
Peter Krauss