ドメインによって拒否されたロボットは引き続き検索結果に表示されます

9

そのため、検索に対応していないすべてのサイトにrobots.txtファイルを適用しました（WebサイトをリアルタイムのGoogle検索結果から除外する方法、またはその他の同様の質問による）。

ただし、検索語句が十分に具体的である場合、ドメイン自体は結果から見つけることができます。この例はここにあります。リンクからわかるように、ドメイン自体を見つけることができます（コンテンツはキャッシュされませんが、ドメインはリストされます）。さらに、site:hyundaidigitalmarketing.comshould 3の結果で検索を実行します。バックリンクのチェックもいくつか提供しますが、バックリンクを防ぐことはできません（コンテキスト内でリンクが許可されます）。または、バックリンクの処理方法を制御できます（ホストにnofollow、noindexを追加するように指示できません）。

今、私はこれが深刻なエッジケースであることを知っていますが、私の会社のクライアントはこれをまさにやっています。実際、私たちのドメインはかなり良いので、一見恣意的な検索でも関連する結果が出ています。今、私はこれがどのように/なぜ起こっているのかについてのレポートを書く必要があります。

そこで、素晴らしいStack Exchangeネットワークに目を向けて、足りないものを理解したり、何が起こっているのかを理解したりします。業界の記事へのリンクは非常に役に立ちますが、あなたが与えることができるものはすべて明らかに素晴らしいです。私はこれを将来に向けての答えにするために最善を尽くして賞金を提供するつもりです。

編集：私はこの質問に対してさらに多くの回答を得ることを期待して、この質問に報奨金を出しました。自分の調査結果も以下に示します。

seo robots.txt

— ケビン・ペノ
ソース

5

この情報のソースを探しに行く必要がありますが、どうやらrobots.txtは必ずしもページのインデックス作成を妨げるものではありません。しかし、HTTP x-robots-tagヘッダーは明らかに機能します。

Apacheを使用している場合は、.htaccessファイルで次の行を使用して、ページをまとめてブロックできます。

Header set x-robots-tag: noindex

それを試して、何が起こるか見てください。

編集する

（ソースを見つけました。覚えているものではありませんが、機能します）。

— ジョンコンデ
ソース

こんにちは、そして答えをありがとう。これは、上記の例として使用されているサイトのhtml出力にすでに実装されているrobotsメタタグとどう違うのですか？私の知る限り、これは単に代替として機能するため、すべてのページに配置する必要はありません。

— Kevin Peno

@ケビン、それらは有効性の点で同じでなければなりません。これはあなたが言ったように管理するのが簡単になるでしょう。

— ジョンコンデ

4

マットカッツがこれについて話したと思います。私の記憶が正しければ、それはリンクに関係していました。詳細：http : //www.google.com/support/forum/p/Webmasters/thread?tid=2720810fa226e9c8&hl=en

これらは、Googleの削除ツールで削除できます。

— ジョー
ソース

あなたはそれらをすべて見ることができます：site：gmpackageguide.com多くのURLはありません。ロボットが禁止される前に、彼らはインデックスに登録されていたと思います。削除するだけです。

— Joe、

将来的には、Webページの見出しセクションに常にインデックスを付けず、フォローしないようにWebデザイン担当者に指示します。あなたが使っているCMSはそれができると思います。

— ジョー

@Joe-同意しますが、noindex, followPageRankが発生する可能性のあるバックリンクから配信されるようにすることをお勧めします。

— Mike Hudson

@Joeと@Mike、情報をありがとう。ただし、サイトはhyundaidigitalmarketing.comです。私はこのサイトを1年前に立ち上げました。robots.txtファイルとメタヘッダーの両方が含まれています。ただし、Googleでsite:hyundaidigitalmarketing.com用語を使って、または用語を検索してフォームを検索するhyundai digital marketingと、ドメイン自体が引き続き最初の最良の結果として表示されます。これを防ぐ必要があります。

— Kevin Peno

また、検索でlinks:hyundaidigitalmarketing.comバックリンクが表示されます。私は明らかにフォーマットのバックリンクを防止したり制御したりすることはできず、それらは有効かもしれません。サイトにリンクすることでこれが発生する場合は、上司に説明できるように、方法と理由を理解する必要があります。これが私の質問をもう少しよく説明してくれるといいのですが。

— Kevin Peno

3

このテーマに関する私の調査に基づいて、データのインデックス作成とキャッシュを防ぐための100％保証された方法はないことがわかりましたが、かなりボットになる可能性があります（ボットトラフィックの増加に対処したい場合）。これが私が情報を解釈した方法です。

robots.txtファイルはサイト全体のロボット情報を定義するために使用され、メタタグはページ固有の詳細に使用されると考えられます。2の背後にある精神はまさにこれだと思いますが、実際にはそうではありません。

robots.txtファイルを作成しないでください

これは、すべての主要な検索プロバイダーと連携して、コンテンツがSERPに表示されないようにしますが、インデックス付けはできます。これにより、ボットによるページのクロールも防止されるため、ロボットメタタグ（下記参照）も無視されます。このため、2を一緒に使用することはできません。そのため、インデックス作成を防止したい場合は、robots.txtファイルを使用しないでください。

補足：GoogleはNoindex: /robots.txtでのの使用をサポートしていますが、文書化されておらず（いつ壊れるのかはわかっていません）、これが他の誰でも機能するかどうかは不明です。

HTTPヘッダーまたはHTML METAタグを使用してすべてを防止する

robots.txtファイルとは異なり、robotsメタタグ（およびHTTPヘッダー）は広くサポートされており、驚くほど機能が豊富です。各ページに設定するように設計されていますが、最近のX-Robots-Tagヘッダーの採用により、サイト全体に簡単に設定できます。この方法の唯一の欠点は、ボットがサイトをクロールすることです。これはを使用して制限できますnofollowが、すべてのボットが本当に尊重するわけではありませんnofollow。

古くなったこのブログ投稿で、大量の情報を見つけました。オリジナルのリリースは2007年でしたが、それに関する情報の多くはそれ以降の新機能であるため、定期的に更新されているようです。

要約すると、のHTTPヘッダーを送信する必要がありますX-Robots-Tag: noindex,nofollow,noodp,noydir。理由の内訳は次のとおりです。

nofollowサイトでクロールするページの数を制限して、ボットのトラフィックを抑えます。* noindexページにインデックスを付けないようにエンジンに指示します。
今、あなたはそれnoindexで十分かもしれないと仮定するかもしれません。ただし、noindexサイトにリンクしている他のサイトが原因でサイトがインデックスに登録されている可能性があると言っても、Yからの一般的なサイトリンクを防ぐ最善の方法！ディレクトリ（noydir）およびオープンディレクトリ（noodp）。
HTTPヘッダーを使用すると、ロボットデータがファイル、画像、その他の非HTMLファイルにも適用されます。わーい！

これは99％のケースで機能します。ただし、プロバイダーによっては、インデックスが作成される可能性があることに注意してください。Googleは完全に尊重するnoindexと主張していますが、私には疑いがあります。

最後に、インデックスを作成する場合、またはすでにインデックスが作成されている場合、情報のインデックスを削除する唯一の方法は、各プロバイダーからのさまざまな手段に従って、サイト/ URLの削除を要求することです。これは明らかに、Google Alertsのようなものを使用してサイト/ページを監視する必要があることを意味します（@Joeに感謝）。

— ケビン・ペノ
ソース

3

あなたの基本的な問題は、サイトへのバックリンクであると思います。これらは、検索エンジンにサイトへのエントリポイントを与え、サイトを認識させるためです。したがって、サイトの説明は表示されませんが、結果に最も一致すると思われる場合はURLが表示される可能性があります。

@joeが投稿した記事からリンクされているこの記事を読んでください：グーグルを締め出すMatt Cutts

重要なビットは次のとおりです。

これにはかなりの理由があります。2000年にGoogleを始めたとき、いくつかの便利なWebサイト（eBay、ニューヨークタイムズ、カリフォルニアDMV）には、ページフェッチを一切禁止するrobots.txtファイルがありました。さて、私はあなたに尋ねます、誰かがクエリ[california dmv]をするとき、私たちは検索結果として何を返すことになっていますか？最初の結果としてwww.dmv.ca.govを返さなかった場合、私たちはかなり悲しく見えます。ただし、その時点ではwww.dmv.ca.govからページをフェッチすることはできませんでした。解決策は、クロールされていないリンクを正しいリンクであると確信できるときに表示することでした。場合によっては、Open Directory Projectから説明を取得して、ページをフェッチしなくても多くの情報をユーザーに提供することもできます。

あなたが行った調査は、静かなものもカバーしており、@ johnと@joeの回答はどちらも関連性があります。検索エンジンのブロックに関する詳細なガイダンスを提供する以下のリンクを含めました。私がサイトを完全にブロックすると考えることができる唯一の方法は、コンテンツが表示される前に完了する必要があるサイトの前に何らかの形のパスワード保護を追加することです。

検索に表示されないSEOMozのヒント

— マシュー・ブルックス
ソース

ディスカッションに追加していただきありがとうございます。パスワード保護は、クロールを防止するために適切に機能しますが、インデックス作成を防止しません。robots.txtはこれを阻止するのに優れているので、パスワード保護の唯一の利点は、それが詮索好きな目がそれを見つけるのを防ぐことです。残念ながら、ほとんどのコンテンツは「保護」されるほど機密性が低く、作成されたユーザビリティの問題を保証するものではありません。[続き...]

— Kevin Peno

私の研究で最も役立つと思われる1つの例えは、電話帳との比較でした。検索エンジンが電話帳であり、あなたがリストされないように頼むなら、あなたは今までリストされないように頼むことができ、彼らはそれを尊重するべきです。残念ながら、検索エンジンは、他の会社が連絡先を販売している会社と同様に機能しており、その連絡先は、それを支払う/尋ねる意思のある人に与えられます。

— Kevin Peno

@Kevin私はあなたが言っていることを理解していますが、残念ながら、現在の検索エンジンの動作方法で完全に削除することはできないと思います。

— マシュー・ブルックス

ああ、私はそれを今理解しています（研究後）。また、あなたの答えに対する私のコメントを否定的な見方でとらないでください。私はあなたのトピックへの追加を明言し、そのようなソリューションを実装することの短所を追加するために返信しただけでなく、私が想定しているトピックから少し外れた冗談を追加しました。：P

— ケビンペノ