Googleが?utm_campaignクエリ文字列を使用してページにインデックスを作成するのはなぜですか


9

最近、Googleがutm_campaign、utm_sourceおよびutm_mediumクエリ文字列引数を含むURLをインデックス化していることに気付きました。結果では、Googleは正規URLではなく、次のクエリ文字列を含むURLを表示します。

utm_campaignがURLに追加されました

これは「コンテンツの重複」の問題である可能性があることを理解していますがlink rel=canonical、ウェブサイト全体でタグを使用しています。一例として:

[snip]
<meta name="description" content="App store optimization helps discovery and rank on Google Play and the App Store. Publishers can use ASO by following these simple steps."/>
<meta name="robots" content="noodp"/>
<link rel="canonical" href="https://sweetpricing.com/blog/2016/11/app-store-optimization/" />
<meta property="og:locale" content="en_US" />
[snip]

正規タグのスクリーンショット

私の期待は、Googleがインデックスに正規URLを使用することです。何が悪いのですか?


2
正規タグがない場合でも、Googlebotは追跡にのみ使用されることがわかっているため、通常、UTMパラメータを無視します。私は以前にそれらがインデックス付けされるのを見たことはありません。
スティーブンオスターミラー

4
FWIW site:stackexchange.com inurl:utm_campaignも同様の結果を返します(やや大規模)。また、site:検索では結果に非正規URLが返されることが多く、通常は「通常の」検索では返されません。ただし、上記のURLは「通常の」検索でも返されるようです。
MrWhite

回答:


3

現在のようにあなたのウェブサイトを見直して、これがもはや/現在問題であるかどうかあまりわかりません。

問題は、UTMパラメータを含むWebサイトの内部リンクではありません(別の質問が示唆するように)。

ソーシャルメディアでウェブサイトのコンテンツを共有する必要があるプロセスが、URLにUTMパラメータを残し、ある時点でそれらがインデックス化される原因となったURLを共有しているようです。

これが発生することはまれですが、以前に他の多くのサイトで発生しています。これらのパラメーターで索引付けされているのは3ページしかないという事実は、これが重大な問題でもサイト全体の問題でもないことを示しています。

これが起こることからこれを根絶するのを助けるために取ることができるステップはここにあります:-

1.ページに正規URLを指定する

あなたはすでにこれを行っており、実装は正しいです。これにより、指定した正規URLのみが検索エンジンで重み付けされます。おそらくこれは常に行われていると思われますが、そうでない場合は、UTMパラメーターでインデックスが付けられたページの古いインスタンスがまだある理由を説明できます。

正規URLの正しい実装

2. Search ConsoleでUTMパラメータをインデックスに登録しないようにGoogleに指示します

一部のURLがUTMパラメータでインデックス化されている場合(ケースのように)、URLパラメータは、ドメインのGoogle Search Consoleの[クロール> URLパラメータ]セクションから検出されたものとして表示されます(以下を参照)。

Google Search Console UTM URLパラメータ

UTMパラメータが表示されない場合でも、「パラメータを追加」して作成できます。

No: Doesn't affect page content (ex: tracks usage)(「パッシブパラメータ」と呼ばれる)を選択するだけで、Googleは通常、特定のパラメータ値を持つ1つのURLのみをクロールします

3 robots.txtでURLパラメータを許可しない

これにより、GoogleはこれらのURLのコンテンツのインデックス作成をブロックしますが、実際のURL自体はブロックしません(検索結果に表示される可能性がありますが、以下のような説明は省略されます)。

robots.txtではインデックス付きページは許可されていません

次のようなものを追加するだけでこれを処理しrobots.txtます:-

Disallow: /*?utm=*

結論

ステップ#1と#2は、予防策と「ベストプラクティス」の問題として実行する必要があり、ステップ#1と#2に加えて、ステップ#3を実行する必要があります(単独では効果がありません)。

Google Search Console内には、(一時的に)URLを削除する機能もあります。これは、インデックス化された頑固なページがまだあるが、問題の根本的な原因が解決されており、この機能で検索結果から一度にすべてを取り除くのに十分な場合に特に便利です。

これを上記の手順として含めていません。以前にこれを調査したにもかかわらず、パラメーター付きのURLをサポートするかどうか思い出せないためです[引用が必要]。私はかつて答えを知っていましたが、この特定の機会に私の記憶は私に失敗しました。

GoogleからのURL削除に関する詳細。


1
ただし、(#3)を使用してこれらのURLのクロールrobots.txtブロックすると、これらのキャンペーンの追跡もブロックさませんか?...また、ページはめ込み正規タグが読み取られないようにします(#1)?
MrWhite、

私はw3dkがrobots.txtについて言っていることに同意します。noindex: /*?utm=*robots.txtで何か使用する場合。
スティーブンオスターミラー

2

これらのリンクをウェブサイトのコンテンツ内で使用して、ページをリンクしているようです。

Googleがインデックスに登録しないようにするにはrel="nofollow"、ウェブサイト内のこれらのリンクに追加し、robots.txtファイルからこれらのパラメーターをブロックします。

Disallow : /*utm_campaign

内部リンクに使用されていることを確認してください。これは、一般にインバウンドリンクでのみ使用されるほとんどのサイトとの違いを説明しています。
スティーブンオスターミラー

実際、utm_campaign URLはBuffer.comによって追加されます-たとえば、「utm_source = plus.google.com&utm_campaign = buffer」のように見えます。私はこれらのリンクをウェブサイトのどこでも使用しているとは思わない。
Brendon

1

正規URLがインデックスに登録されているかどうかを確認しましたか?正規URLが索引付けされている場合、心配する必要はありません。

Googleのウェブマスターツールを試して、GoogleによるURLパラメータの処理方法をここで変更できます


1
一部のURLでは、utm_campaign URLのみがインデックスに登録されます。他のページでは、両方のURLがインデックスに表示されました。昨日、Fetch as Googleツールを使用して(utm_campaignクエリ文字列を使用して)1つのURLをクロールしました-そのURLは消えたように見え、正規URLがインデックス化されました。
Brendon

また、クロールの統計(スクリーンショット)には、クロールに時間がかかる(平均2.3秒)ページが表示されているようです。これが広範囲に及ぶ問題であるかどうかはわかりませんが、おそらくGoogleがサイトのクロールで問題を抱えている可能性があります。
ブレンドン

訪問者がWebサイトにアクセスしたら、少しクリーンアップを行うこともできます。link Fresh URLスクリプトを使用して、URLから利益を得た後に、URLからUTMパラメータを動的に削除します。次に、URLパラメータを追加します...
muhammad usman 2016
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.