Drupalコメントの重複コンテンツの問題の影響は何ですか?


7

コメントが有効になっているnode / 123というノードがあるとします。コメントが作成されると、/ comment / 1、/ comment / 2 ...、/ comment / reply / 2/1などの追加のURLが生成されます。残念ながら、これらの新しいURLは、コンテンツの完全なコピーを含むページです元のページ/ node / 123または返信のコメント。Coreのrobots.txtにはDisallow: /comment/reply/

robots.txtファイルに以下を追加することには何らかの影響がありますか?これは推奨されますか(または、この問題を指摘する主要な問題を投稿しますか?)

# Paths (clean URLs)
Disallow: /comment/
Disallow: /comment*/
Disallow: /comment/reply/
Disallow: /comment/reply*/
...
# Paths (no clean URLs)
Disallow: /?q=comment/
Disallow: /?q=comment*/
Disallow: /?q=comment/reply/
Disallow: /?q=comment/reply*/

2
ここでも同様の議論があります:drupal.org/node/1680978もこのサンドボックスモジュールをチェックしてください:Nodepathへのパーマリンク。 drupal.org/sandbox/Ayesh/1578662
gilzero

1
これは一般的なSEOの問題であり、Drupalに大まかに関連しているだけなので、実際には別の場所に持ち込みます。
Letharion、

2
最初は別の場所に持っていくことを検討しましたが、これはDrupalに固有の問題です。おそらく、SEOに精通していてDrupalを知っている誰かがチャイムを鳴らす必要があります。
Nigel Waters

回答:


5

私は質問の最初のコメントで述べたサンドボックスモジュール(Nodepathへのパーマリンク)の作成者です。マリオの答えは正規URLに関して十分に説明されています-残念ながら、それが唯一の意味ではありません。

これらのコメント/ * URLはDrupal 7からのものです。Drupal6では、コメントには独自のURLがありませんでした。正規URLは、ほとんどのサイトIMOにとって完全に問題のない重複コンテンツの問題を解決できます。ただし、スパムコメントは、必要に応じて404および403エラーをサイトのエラーリストに追加する可能性があります。これは私の個人的な経験で、スパムハンティングサービスでは一部のコメントを削除できなかったため、手動で削除する必要がありました。しかしグーグルはそれらをすでに索引付けしていた。

Googleウェブマスターセントラルからのブログのクロールエラーのスクリーンショット

実際の問題は、匿名ユーザーがあらゆるタイプのコメントを投稿できることであり、それらが削除または非公開にされた場合、Google(および他の検索エンジン)はそれらをクロールエラーとしてログに記録します。

一方、facebookを含むほとんどのリンク共有サイトは、正規URLを尊重していません。たとえば、http://example.com/node/1は56個の(facebook)のいいね!を持つことができますが、ユーザーが好きな場合は同期されませんhttp://example.com/comment/5(コメント5がノード1に加えられたコメントであると想定)。facebookビューから、それらは2つの異なるURL(実際には実際のURL)であるため、カウントは異なります。

また、Boostのようなモジュールは、$ _ SERVERからの実際のリクエストURI設定に依存しcomment/5ています(正規URLはですがnode/5)。ただし、これを克服するためにBoostモジュールの構成を変更できます。

これは、使用するのは非常に人気がありますarg(1) 彼らがしますなどのカスタムブロック、モジュール、ビュー、ノードのIDを取得するために仕事を理由にコメント/%のURL、その機能セットのコールバック関数では、$_GET['q']正規のURLへ。この$ _GETの変更により、プログラム可能な問題のほとんどが解決されます。


5

調査した結果、SEOの問題はここにはないと思います。それは確かに厄介ですが、それは問題ではなく、ここに理由があります:

ここでhttp://googlewebmastercentral.blogspot.com/2009/02/specify-your-canonical.html on canonical URLs and duplicate contentに関するGoogleの推奨事項に従って、コンテンツを適切に指定した場合にのみ、コンテンツが重複していても問題は発生しません正規URL。また、Google(およびおそらく他のすべての検索エンジン)は、正規URLのみを検索結果に表示し、他のURLは表示しません。

Drupalの場合、正規URLは適切に設定されています。たとえば、テスト記事(node / 2)を作成し、コメントと返信を追加して、次のページを取得しました。

  • / node / 2
  • /コメント/ 2
  • /コメント/ 3

生成されたソースコードを検査した後、すべてのソースコードに同じもの<link rel="canonical" href="https://drupal.stackexchange.com/node/2" />が正しく作成されています。したがって、基本的にメインの記事ページのみが検索結果に表示されます。

コアを変更して単一のページのみを生成するか、指定したとおりにrobots.txtファイルにパッチを適用するかは、私にはわかりません。上記のいずれかを実装する前に考慮すべき考慮事項や特別なケースがたくさんあると確信しています。実際には問題がないので、現状を維持するのが最善でしょう。

乾杯!

注:私はDrupal 7.17(今日の最新バージョン)を使用しています。


これは間違いなく正しい答えだと思います。node_page_view()は正規URL(api.drupal.org/api/drupal/modules%21node%21node.module/function/…)を設定するため、他に心配する必要はありません。/ comment /%コールバックが気に入らない場合は、間違いなくそれらをrobots.txtに追加するか、またはhook_menu_alter()を介して完全に削除することができます。
チャーリーシュリーサー、

2
また、すでにexample.com/node/123、/node/123/view/foo、/node/123/view/foo/bar/bazのようなURLにヒットでき、すべてが200を返すことも追加します–設定正規URLは、これらすべての種類のインスタンスで役立ちます。
チャーリーシュリーサー、

私は同じ問題を抱えていますが、問題は正規URLが有効になっているがノードページを指していないことです。代わりに、正規ページがコメント/再生ページを指しています。彼らが正しく指すように編集するにはどこに行くのですか?
blue928 2013

おかしい!これらを編集できる管理ページはないと思います。どのDrupalバージョンを使用していて、どのモジュールをインストールしていますか?
Mario Awad 2013
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.