シンジケーションでのrel = canonicalの使用


21

私はコンテンツのシンジケーションを許可するサイトで働いています(APIおよびデータダンプ経由)。私たちは、元の出版社であるにもかかわらず、コンテンツを再公開する多くのサイトがGoogle検索結果で上位に表示されることを発見しています。これはイライラします。

rel=canonical アトリビューション要件の一部を検討してい ます。Google 、ドメイン間およびシンジケーションシナリオで使用することは合法であると述べています。

これを行ったことがあり、Googleは検索ランキングで正規URLを考慮していますか?このようなSERPの「スパム」を減らすのに役立ちますか?


1
あなたが説明しているのはスパムではありません。それは、あなたが彼らに求めていることをしている人々、つまりコンテンツをシンジケートしている人々です。スパムとは、価値のあるものを作成するのではなく、広告で人々を攻撃することのみを目的として作成された未承諾の電子メール広告およびWebページです。それらがコンテンツを配信するサイトのタイプである場合、配信モデルを再考する必要があります。そうしないと、サイトにあまり反映されません(関連付けによって)。しかし、単にあなたよりも検索ランキングが良いということは、サイトをスパムにしません。
Lèseはmajesté

@Lèse本当に?これらのサイトは、Google自体によって確立された「オリジナルコンテンツがほとんどまたはまったくない」ルールに直接違反しているようですgoogle.com/support/webmasters/bin/answer.py?answer=66361
ジェフアトウッド

@ジェフ:具体的にどのサイトに言及していますか?Webシンジケーション自体を使用する行為について話しているのですが、これは多くの正当なサイトが行っていることです。スパムサイトはシンジケートコンテンツを使用する必要はありません。シンジケートコンテンツを使用するだけでは、サイトがスパムサイトになりません(たとえあなたよりもランクが高い場合でも)。適切な例として、多くの主要なニュース出版物は、APからのシンジケートコンテンツを使用して、独自のコンテンツを補完しています。コンテンツが重複していますか?はい。しかし、それはスパムですか?いいえ。APもスパムを促進しているとは思いません。
Lèseはmajesté

@Lèseキーワードは、ここで独自のコンテンツを補足しています。すべてのコンテンツがコピーされた場合、価値または関心のあるものは正確に作成されますか?
ジェフアトウッド

1
@ジェフ:マットの質問から、それらが彼が言及しているサイトであることは明らかではありません。彼は、コンテンツを再公開しているサイト(シンジケーションAPIを提供する目的)が元のコンテンツよりも上位にランクされていると単に述べました。それは、私にとって、これらが(必ずしも)スパムサイトであることを意味するものではありません。しかし、私の質問の解釈は間違っているかもしれません。
リースマジェス

回答:


10

ジェフは彼が言ったことすべてにおいて100%正しい。

使用するシンジケーションサイトのリクエストに関する別の問題<link rel="canonical" href="http://example.com/foo">は、シンジケーションページがページランクを取得せず、http://example.com/foo代わりにすべてを取得する必要があることをGoogleに伝えることです。

それは2つの大きな問題を生み出します。

  1. シンジケーションページにはページランクがないため、Google検索にはまったく表示されません。シンジケーションサイトは、これについては少しも満足していません。彼らができたとしても、彼らが喜んで変化を起こすとは考えにくい。
  2. シンジケーションサイトから効果的にリンクされていないため、サイトに思いどおりの影響を与えない場合があります。Googleはこれをどのように処理するのだろうか。クロスサイトrel = "canonical"を許可しているのは事実ですが、その目的は、サイトの移行と、同じコンテンツを持つ1つのホストの下に複数のサイトを持ち、1つのデファクトページと多くの類似/同じページを持つことです。

これらはいくつかの良い点です。シンジケーションは、コンテンツが重複する正当な理由がある領域の1つだと思います。この場合、重複したコンテンツをそのままにして、それがシンジケーションであるということを受け入れる方が良いでしょう。もちろん、理想的には、Googleはシンジケーションパートナーのページではなく、元のページを優先すべきです。おそらくrel="canonical"、HTML5 <cite>タグとの間にある新しいタグを作成する必要があります。これにより、検索エンジンは、正当な複製コンテンツの元のページを知ることができます。
Lèseはmajesté

確認済みです。以下のマットカッツからの回答をご覧ください。
ジェフアトウッド

14

私の調査では、リンクを戻す必要があり、リンクをフォローしないことが最も重要な基準であることが示されました。

「シンジケート」サイトが、検索エンジンが従うのに有効なオリジナルへのリンクをコンテンツに関連付けていない場合、検索エンジンはコンテンツの発生場所を追跡するのが非常に難しく、複雑な「重複テキストコンテンツを見つける」インターネット全体」ヒューリスティック。

それ以上必要かどうかはわかりません。

関連するMatt Cuttsビデオ

http://www.youtube.com/watch?v=x8XdFb6LGtM

Mattは、rel = "canonical"を使用して記事の発信元のページに戻ることをお勧めします-シンジケートされた記事に従来のリンク(つまり<a>nchorタグ)が含まれていることをしばしば示唆したように原著。

canonicalはタグを単に叩くだけではないことに注意rel="canonical"してください<a>。これは次のようなものです。

<html>
    <head>
         <link rel="canonical" href="http://example.com/foo">
    </head>
...

そのため、異なる種類の作業が必要であり、各ページヘッダーを変更する必要があります。これらの「シンジケーター」の多くが、ソースに戻る単純なリンク(sans nofollow!)に対して、そのレベルの制御を持っているかどうかはわかりません。


私はまた、帰属必須守る、このトピックのジェフのブログエントリを読んでお勧めしたい- blog.stackoverflow.com/2010/08/defending-attribution-required
スコット・ミッチェル

@scottノートでは、我々はなかったことではない元々続いリンクを必要とするが、我々は、Googleのスパイダーは、私たちのデータにあったものを欠けていたので、スクレーパーの一部をダンプ使用して...とnofollowedさミッシングリンクがないことを変えないで助けが戻ってそれを置きますGoogleのインデックスに!
ジェフアトウッド

@ジェフ:ちょっとした接線で、私を悩ませた1つのことは、Stackoverflow回答のリンクがrel = "nofollow"を持っていることです。特定の担当者を持つユーザーは、投稿するリンクにrel = "nofollow"を付けないというメリットを得るべきではありませんか?
スコットミッチェル

Stack Exchange Webサイト全体のプロファイル内のWebサイトフィールドを@scottすることで、2k担当者のnofollowが礼儀として削除されました。
ジェフアトウッド

1
@ジェフ、私はStackoverflowの答えのリンクについて話している。たとえば、このページで表示/ソースを実行すると、回答のリンク(YouTubeへのリンクなど)にrel = "nofollow"が表示されます。これはスパマーを思いとどまらせるためであると推測しますが、同時に、他の人の検索結果の関連性を改善する機会を逃しているようです。記事/ブログエントリ/など。それがリンクされています。
スコットミッチェル

2

これについてマット・カッツから決定的な応答を得たので、別の答えを追加します:

rel=canonicalドメイン間で機能しますが、基本的に301 [リダイレクト]のように機能するため、ターゲットサイトのページはGoogleのサイトに直接移動します。コンテンツを使用しているサイトは、基本的に検索エンジンから削除されます。

マットが言うように、考える最も良い方法rel=canonical301の恒久的なリダイレクトとしてです。

したがって、rel=canonical一連の属性用語としてクロスドメインを要求することは、301リダイレクトを要求するようなものです。痛い。:P

これを知っていることは、rel=canonicalドメインを移動し、あるドメインのコンテンツを他のドメインに置き換える必要がある場合など、個人的に制御できるサイトでのみ使用することを意図していることは明らかです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.