Drupalコメントの重複コンテンツの問題の影響は何ですか？

コメントが有効になっているnode / 123というノードがあるとします。コメントが作成されると、/ comment / 1、/ comment / 2 ...、/ comment / reply / 2/1などの追加のURLが生成されます。残念ながら、これらの新しいURLは、コンテンツの完全なコピーを含むページです元のページ/ node / 123または返信のコメント。Coreのrobots.txtにはDisallow: /comment/reply/

robots.txtファイルに以下を追加することには何らかの影響がありますか？これは推奨されますか（または、この問題を指摘する主要な問題を投稿しますか？）

# Paths (clean URLs)
Disallow: /comment/
Disallow: /comment*/
Disallow: /comment/reply/
Disallow: /comment/reply*/
...
# Paths (no clean URLs)
Disallow: /?q=comment/
Disallow: /?q=comment*/
Disallow: /?q=comment/reply/
Disallow: /?q=comment/reply*/

comments 7

— ナイジェルウォーターズ
ソース

ここでも同様の議論があります：drupal.org/node/1680978もこのサンドボックスモジュールをチェックしてください：Nodepathへのパーマリンク。 drupal.org/sandbox/Ayesh/1578662

— gilzero

これは一般的なSEOの問題であり、Drupalに大まかに関連しているだけなので、実際には別の場所に持ち込みます。

— Letharion、

最初は別の場所に持っていくことを検討しましたが、これはDrupalに固有の問題です。おそらく、SEOに精通していてDrupalを知っている誰かがチャイムを鳴らす必要があります。

— Nigel Waters

回答:

私は質問の最初のコメントで述べたサンドボックスモジュール（Nodepathへのパーマリンク）の作成者です。マリオの答えは正規URLに関して十分に説明されています-残念ながら、それが唯一の意味ではありません。

これらのコメント/ * URLはDrupal 7からのものです。Drupal6では、コメントには独自のURLがありませんでした。正規URLは、ほとんどのサイトIMOにとって完全に問題のない重複コンテンツの問題を解決できます。ただし、スパムコメントは、必要に応じて404および403エラーをサイトのエラーリストに追加する可能性があります。これは私の個人的な経験で、スパムハンティングサービスでは一部のコメントを削除できなかったため、手動で削除する必要がありました。しかしグーグルはそれらをすでに索引付けしていた。

Googleウェブマスターセントラルからのブログのクロールエラーのスクリーンショット

実際の問題は、匿名ユーザーがあらゆるタイプのコメントを投稿できることであり、それらが削除または非公開にされた場合、Google（および他の検索エンジン）はそれらをクロールエラーとしてログに記録します。

一方、facebookを含むほとんどのリンク共有サイトは、正規URLを尊重していません。たとえば、http://example.com/node/1は56個の（facebook）のいいね！を持つことができますが、ユーザーが好きな場合は同期されませんhttp://example.com/comment/5（コメント5がノード1に加えられたコメントであると想定）。facebookビューから、それらは2つの異なるURL（実際には実際のURL）であるため、カウントは異なります。

また、Boostのようなモジュールは、$ _ SERVERからの実際のリクエストURI設定に依存しcomment/5ています（正規URLはですがnode/5）。ただし、これを克服するためにBoostモジュールの構成を変更できます。

これは、使用するのは非常に人気がありますarg(1) 彼らがしますなどのカスタムブロック、モジュール、ビュー、ノードのIDを取得するために仕事を理由にコメント/％のURL、その機能セットのコールバック関数では、$_GET['q']正規のURLへ。この$ _GETの変更により、プログラム可能な問題のほとんどが解決されます。

— AyeshK
ソース

調査した結果、SEOの問題はここにはないと思います。それは確かに厄介ですが、それは問題ではなく、ここに理由があります：

ここでhttp://googlewebmastercentral.blogspot.com/2009/02/specify-your-canonical.html on canonical URLs and duplicate contentに関するGoogleの推奨事項に従って、コンテンツを適切に指定した場合にのみ、コンテンツが重複していても問題は発生しません正規URL。また、Google（およびおそらく他のすべての検索エンジン）は、正規URLのみを検索結果に表示し、他のURLは表示しません。

Drupalの場合、正規URLは適切に設定されています。たとえば、テスト記事（node / 2）を作成し、コメントと返信を追加して、次のページを取得しました。

/ node / 2
/コメント/ 2
/コメント/ 3

生成されたソースコードを検査した後、すべてのソースコードに同じもの<link rel="canonical" href="https://drupal.stackexchange.com/node/2" />が正しく作成されています。したがって、基本的にメインの記事ページのみが検索結果に表示されます。

コアを変更して単一のページのみを生成するか、指定したとおりにrobots.txtファイルにパッチを適用するかは、私にはわかりません。上記のいずれかを実装する前に考慮すべき考慮事項や特別なケースがたくさんあると確信しています。実際には問題がないので、現状を維持するのが最善でしょう。

乾杯！

注：私はDrupal 7.17（今日の最新バージョン）を使用しています。

— マリオ・アワド
ソース

これは間違いなく正しい答えだと思います。node_page_view（）は正規URL（api.drupal.org/api/drupal/modules%21node%21node.module/function/…）を設定するため、他に心配する必要はありません。/ comment /％コールバックが気に入らない場合は、間違いなくそれらをrobots.txtに追加するか、またはhook_menu_alter（）を介して完全に削除することができます。

— チャーリーシュリーサー、

また、すでにexample.com/node/123、/node/123/view/foo、/node/123/view/foo/bar/bazのようなURLにヒットでき、すべてが200を返すことも追加します–設定正規URLは、これらすべての種類のインスタンスで役立ちます。

— チャーリーシュリーサー、

私は同じ問題を抱えていますが、問題は正規URLが有効になっているがノードページを指していないことです。代わりに、正規ページがコメント/再生ページを指しています。彼らが正しく指すように編集するにはどこに行くのですか？

— blue928 2013

おかしい！これらを編集できる管理ページはないと思います。どのDrupalバージョンを使用していて、どのモジュールをインストールしていますか？

— Mario Awad 2013