通常、検索にはGoogleを使用します。過去数か月間、私が得たトップの検索結果のほとんどは、他のサイトをスクレイピングするためにのみ存在していると思われるサイトのものです。たとえば、MicrosoftのフォーラムGo4Answers、MSDN.iTags.Org、Tech-Archiveなどは、これらのものによってスクレイピングされます。
検索結果でソースコンテンツを表示したいだけで、これらの種類のサイトを表示したくない。
Googleカスタム検索とそのフィルタリングオプションは最初は良さそうに見えましたが、結果ページには標準のGoogle検索エンジンの機能の多くが欠けているため、それを避けています。
これらのタイプのサイトを追放する良い方法はありますか?
数週間前に回答で使用された機能を発見したばかりで、tech-archiveが最初にブロックしたサイトでした。私は情熱を持ってそのサイトが嫌いです。
—
エヴァンプライス
可能性のある重複ジャンクサイトなしで商品のレビューを検索する方法
—
エール