URLにカエルの文字を追加するとどうなりますか?


8

Googleウェブマスターツールの[クロールエラー]セクションを閲覧しているときに、サイトに関する非常に奇妙な500エラーのセットを発見しました。

カエルのURL

私はこれらの文字が何であるかを追跡することができました、そして明らかにそれらはUnicode Private Use Areaの最初の2文字です。私のフォントはたまたま、小さな王冠と数字の7に似たシンボルを身に着けているカエルにそれらをマッピングしました。

これらの記号は、HTML以外のファイルのアドレスにのみ表示されます。Officeドキュメント、PDFなど-ただし、ファイル名に表示されるだけではありません。

これらのシンボルはどこから来ているのですか、Googleがサイトを適切にクロールできるようにそれらを取り除く方法はありますか?

背景情報:

  • IIS6およびPHP 5.3.8でWS2K3を実行するWebサーバーを使用する
  • サイトのエンコードはUTF-8です
  • これらの記号はページまたはソースに表示されません

6
今では、毎日目にすることがないものがあります。
ジョンコンデ

@ジョンコンデ:それについて教えてください。これは月曜日の朝の問題ではありません。:P
Jacob Hume

HTML以外のすべてのファイルに表示されますか、それとも一部に表示されますか?
froderik

@froderikほんの一握りで、影響を受けるドキュメントは、さまざまな開発者によってWebサイトのさまざまな領域に投稿されています。
Jacob Hume

回答:


4

これは推測に過ぎませんが、1つの可能性は、壊れたコードを使用して他の誰かがファイルにホットリンクしていることです。私は自分のサイトに怪しげなリクエストをしたときはいつでも、それを他の誰かの手に負えないリンクまで追跡することができたことを知っています。(これらのURLのソースを特定しやすくするために、スパイダーにHttp-Refererヘッダーが含まれていないことは本当にイライラします)。


1
「...スパイダーにはHttp-Refererヘッダーが含まれていません...」-正しいですが、Googleウェブマスターツールには、問題のコンテンツにリンクしているサイトを(通常は)リストするレポートが含まれています。
danlefree

ウェブマスターツールの[サイトへのリンク]セクションと[内部リンク]セクションの両方を簡単に確認したところ、表示された1,000のリンクに文字が表示されませんでした。素晴らしいアイデアですが!
Jacob Hume、
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.