他のサイトをスクレイピングして再公開するサイトを回避するにはどうすればよいですか?


12

通常、検索にはGoogleを使用します。過去数か月間、私が得たトップの検索結果のほとんどは、他のサイトをスクレイピングするためにのみ存在していると思われるサイトのものです。たとえば、MicrosoftのフォーラムGo4AnswersMSDN.iTags.OrgTech-Archiveなどは、これらのものによってスクレイピングされます。

検索結果でソースコンテンツを表示したいだけで、これらの種類のサイトを表示したくない。

Googleカスタム検索とそのフィルタリングオプションは最初は良さそうに見えましたが、結果ページには標準のGoogle検索エンジンの機能の多くが欠けているため、それを避けています。

これらのタイプのサイトを追放する良い方法はありますか?


数週間前に回答で使用された機能を発見したばかりで、tech-archiveが最初にブロックしたサイトでした。私は情熱を持ってそのサイトが嫌いです。
エヴァンプライス

回答:


6

好きなサイトからの結果に星を追加します。時間が経つにつれて、Googleはそれらのサイトからの結果を支持すべきです。

防弾ソリューションではありませんが、よりパーソナライズされた結果を取得する必要があります。


3

検索結果からサイトをブロックする

アカウントにログインし、[ブロックされたサイトの管理]に移動するだけで、問題のサイトのドメインを追加できます(http://プレフィックスを含めることを忘れないでください)。

例:

http://blogs.technet.com
http://technet.microsoft.com
http://mobile.experts-exchange.com
http://experts-exchange.com

ブロックされたサイト内のすべてのページがブロックされるため、サブドメインを追加する必要はありません。

注:Googleでは、最大500個のサイトをブロックできます。


Technetは今日、彼らのサイトでブログの記事を読んだので、その年のFUDの基準を超えたため、彼らの名誉ある言及を得ています。専門家の交換OTOHは、ブロックされた理由についての説明を必要としない(またはそれに値する)べきではありません。
エヴァンプライス

ああ、神様。それが私が長年探してきた解決策です!本当にありがとうございます!
バシレフス

@Basilevs笑、私は助けることができてうれしいです。
エヴァンプライス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.