ページの古さを知る方法は?


15

Googleは、だれが最初にテキストを投稿し、誰がコピーしたかを判断するのに、多少なりとも正確だと思いました。ただし、「検索ツール:カスタマイズされた間隔」を使用すると、結果が非​​常に奇妙になります。私が数年しか持っていなかったウェブサイトの2002年にさかのぼるページを見つけました。

そのため、Googleは、誰がオリジナルをコピーし、誰が書いたのかを正確に知ることができません。とは?

ここに画像の説明を入力してください

stackexchange.com2009年に作成された場合、これはどのように可能ですか?hermeneutics.seスタックオーバーフローよりも古い!


あなたの前に誰かがドメイン名を所有していましたか?Googleで比較しているページは何ですか?
closetnoc

SEデータで質問を更新しました。タイムスタンプは正確ではありません。
レナン14年

2
ワオ。私はわかりません。私はこれの仕組みを普通に理解していますが、Googleが行うことはまだ謎です。Googleが日付を決定する方法については、ネット上でほとんど情報がありません。少し前に、Googleが修正日を決定する方法に関して質問がありました。私はいくつかの研究を行いましたが、ほとんど何もありません。それでも、私はもう一度見ていきます。ただし、数日かかる場合があります。CMSソフトウェアと、おそらくSEコードは、ApacheがHTMLページに対して行うような作成日と変更日を返さないことに注意してください。そして、これが答えかもしれません。
closetnoc

Googleである必要はありませんが、ユーザーが盗用されているのか盗用されているのかを知りたいです。= /
レナン14年

これまでのところ、GoogleはHTML内の日付形式を理解していないように見えますが、これは決定的なものではありません。最初のサンプルページのソースコードは、明確な日付の手がかりをGoogleに提供しません。Google(少なくとも)の外観または次の順序の日付:URL、タイトル、本文(コンテンツ)、メタタグ、HTTP応答からの最終変更日。HEADリクエストは、作成日と最終変更日を返します。同様に、if-modified-sinceを使用したGETは、200 Okでリソースを返すか、304 Not Modifiedを返します。SEコードはこれらを返さない場合があり、URL、タイトル、コンテンツ、およびメタタグのみが使用可能です。
closetnoc

回答:


12

この質問に対する答えをこの方法で調査しました。これは、私が持っている例であるGoogleを使用して、Googleが作成日と変更日を取得する方法、およびGoogleが認識する日付形式です。この情報はほんの数ページに存在するものではないことを理解してください。直接適用されないように思える非常に多くのソースからデータをフェレットアウトしなければなりませんでした。場合によっては、情報は複数のソースから取得され、常に割り当てられるとは限りません。

Googleはこの順序でページの日付を探します。少なくともGoogle検索アプライアンスに関する限り、URL、タイトルタグ、本文(コンテンツ)、メタタグ、HTTP応答ヘッダー。他の文書の他の段落では、順序は文書化されていませんが、リストが議論され、リストを確認したようです。考えてみると、これは検索エンジンの順序を反映しています。1つ-ページを検出(リンク)、2つ-メタタグ(小さな詳細)とHTTP応答ヘッダーを除いて、ページを上から下(タイトル、本文、メタタグ)に読みます。以下は、アプライアンスに関する限りのリストです。https://developers.google.com/search-appliance/documentation/68/admin_crawl/Preparing#docdaterule

注:開始日は、ページがGoogleによって最初にリクエストされた日付です。作成日がない場合は、開始日が使用されます。

1]すべての検索エンジンは、HTTP GETリクエストを介してリソースをリクエストでき、Webサーバーはデータパケット内のリソースを含むレスポンスヘッダー内の最終変更日を返します。

2]すべての検索エンジンは、HTTP HEAD要求を介してリソースのヘッダー情報を要求でき、Webサーバーは、データパケット内のリソースなしで、応答ヘッダー内に変更日を返します。

3]任意の検索エンジンは、if-modified-sinceが日付に設定されたHTTP GETでリソースを要求することにより、特定の日付以降にリソースが変更されたかどうかを要求できます。設定された日付以降にリソースが変更された場合、Webサーバーは200 Ok応答で応答してリソースを返します。設定された日付以降にリソースが変更されていない場合、Webサーバーはリソースを返さずに304 Not Modifiedで応答します。

Googleは、方法#3を使用して多くの要求を行い、帯域幅を節約します。これらはWebサーバーのログファイルに表示されます。

注:コンテンツ管理システム(CMS)または他のソフトウェアは、応答ヘッダー内で日付を適切に提供できない可能性があります。

これらの日付の例は、Googleアプライアンスのドキュメントに基づいていますが、一般的な検索に関する他の場所にも存在します。アプライアンスのドキュメントからこれらの詳細を取得したのは、他の場所ではそれほどきれいではないリストとして切り取って貼り付けることができるからです。

4] GoogleはURL内で日付を探します。次の形式を探します。YYYMMDDHH-YYYY-YYYYMM。

5] Googleは、タイトルタグ内で日付を探します。次の形式を探します。YYYMMDDHH-YYYY-YYYYMMですが、他の形式も認識できると思われます。下記参照。

6] Googleはbodyタグ(コンテンツ)内で日付を探します。次の形式を探します。YYYMMDDHH-YYYYMMDD-YYYYMM-YYYY-DDMMYYYY-YYMMMDD-MMDDYYYY-YYMMDD-DDMMYY-MMDDYY 下記参照。

注:Googleは、最初のH1タグのすぐ下の日付を特に検索することが知られています。これは、ブログがこの場所に日付を入れることが多いためです。

7] Googleは、このようなメタタグを探します。 <meta http-equiv="last-modified" content="YYYY-MM-DD@hh:mm:ss TMZ" />

Googleは、次の日付形式も認識すると言われています。

YYYY-MD-YYYY.MD-YYYY / M / D-MD-YYYY-MDYYYY-M / D / YYYY-YY-MM-DD-YY.MM.DD-YY / MM / DD-WK、D MON、YR -WK、MON D、YR-D MON、YR-MON YYYY-MON D、YR-MON YY-YYYY-DM-YYYY.DM-YYYY / D / M-DM-YYYY-DMYYYY-D / M / YYYY- DD-MM-YY-MM-DD-YY-DD / MM / YY-MM / DD / YY-YYYYMMDDHH-YYYYMMDD-YYYYMM-YYYY-DDMMYYYY-MMDDYYYY-YYMMDD-DDMMYY-MMDDYY

私が見つけた研究は、時間の問題には答えませんでした。

引用された例の場合、ページは、無視される場合があるspanタグ内を除いて、日付の手がかりを提供しません。SEソフトウェア/ Webサーバーは、応答ヘッダー内で作成日と変更日を返すことができない可能性があります。

Googleがこれらの日付を導き出した理由と方法は、解決されないかもしれない良い質問です。しかし、私は探し続けます。


3
「Googleは、この順序でページの日付を検索します。URL、タイトルタグ、本文(コンテンツ)、メタタグ、HTTP応答ヘッダー」の参照はありますか?この調査の数値や統計情報はありますか?あなたがここに投稿したものの参照を投稿できれば、それは私たち全員にとってずっと良いでしょう。
パトマス14年

これを聞いてくれてありがとう。私が見つけたものの多くは、断片的なものでした。リストはいくつかの場所で見つかりましたが、その順序はGoogle検索アプライアンスのドキュメントで見つかり、他の場所の段落でバックアップされているようです。文字通り、見つけるのにかなりの時間がかかった数十のドキュメントを調べました。私は、これに関する直接的な情報がないように思えたので、さまざまなソースからのデータをつなぎ合わせなければならなかったと慎重に言った。わかりやすくするためにステートメントを編集します。
closetnoc 14年

私はまた、いくつかの時に含まれる次の日付フォーマット文字列ことを確認できるarticle.post > div.post-content > h2 > pレベルは最近、Googleが取り上げられ、使用された日付を表示するには:「最終更新日:2018年10月7日」
マット・

-2

ドメインの古さを知りたい場合は、Googleでwayback machineを検索してください。:このサイトでは、あなたが探しているものですhttp://archive.org/web/

盗作を検出したい場合は、このリンクが役立ちます:http : //copyscape.com/signup.php ? pro=0&o=f

また、Googleで「盗作チェッカー」を検索します。

私が助けてくれたことを願っています。


3
敬意を表して、質問を読み直す必要があります。
closetnoc

問題は、「ページの古さを知る方法」です。私のリンクをたどってください。答えが良いことがわかります。これを読んでくれてありがとう。
パスカット14年

3
あなたは質問を読んでいない。タイトルを読んでいます。帰り道の機械は質問に答えません。
closetnoc 14年

あなたしている権利は、私は私の質問を編集した...
Pascut

1
ウェイバックマシンは、ドメイン内のページを追跡します。特定のページ間で日付を比較することは役に立ちません。どちらが最初に投稿されたかを正確に知る手段を探しています。
レナン14年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.