この質問に対する答えをこの方法で調査しました。これは、私が持っている例であるGoogleを使用して、Googleが作成日と変更日を取得する方法、およびGoogleが認識する日付形式です。この情報はほんの数ページに存在するものではないことを理解してください。直接適用されないように思える非常に多くのソースからデータをフェレットアウトしなければなりませんでした。場合によっては、情報は複数のソースから取得され、常に割り当てられるとは限りません。
Googleはこの順序でページの日付を探します。少なくともGoogle検索アプライアンスに関する限り、URL、タイトルタグ、本文(コンテンツ)、メタタグ、HTTP応答ヘッダー。他の文書の他の段落では、順序は文書化されていませんが、リストが議論され、リストを確認したようです。考えてみると、これは検索エンジンの順序を反映しています。1つ-ページを検出(リンク)、2つ-メタタグ(小さな詳細)とHTTP応答ヘッダーを除いて、ページを上から下(タイトル、本文、メタタグ)に読みます。以下は、アプライアンスに関する限りのリストです。https://developers.google.com/search-appliance/documentation/68/admin_crawl/Preparing#docdaterule
注:開始日は、ページがGoogleによって最初にリクエストされた日付です。作成日がない場合は、開始日が使用されます。
1]すべての検索エンジンは、HTTP GETリクエストを介してリソースをリクエストでき、Webサーバーはデータパケット内のリソースを含むレスポンスヘッダー内の最終変更日を返します。
2]すべての検索エンジンは、HTTP HEAD要求を介してリソースのヘッダー情報を要求でき、Webサーバーは、データパケット内のリソースなしで、応答ヘッダー内に変更日を返します。
3]任意の検索エンジンは、if-modified-sinceが日付に設定されたHTTP GETでリソースを要求することにより、特定の日付以降にリソースが変更されたかどうかを要求できます。設定された日付以降にリソースが変更された場合、Webサーバーは200 Ok応答で応答してリソースを返します。設定された日付以降にリソースが変更されていない場合、Webサーバーはリソースを返さずに304 Not Modifiedで応答します。
Googleは、方法#3を使用して多くの要求を行い、帯域幅を節約します。これらはWebサーバーのログファイルに表示されます。
注:コンテンツ管理システム(CMS)または他のソフトウェアは、応答ヘッダー内で日付を適切に提供できない可能性があります。
これらの日付の例は、Googleアプライアンスのドキュメントに基づいていますが、一般的な検索に関する他の場所にも存在します。アプライアンスのドキュメントからこれらの詳細を取得したのは、他の場所ではそれほどきれいではないリストとして切り取って貼り付けることができるからです。
4] GoogleはURL内で日付を探します。次の形式を探します。YYYMMDDHH-YYYY-YYYYMM。
5] Googleは、タイトルタグ内で日付を探します。次の形式を探します。YYYMMDDHH-YYYY-YYYYMMですが、他の形式も認識できると思われます。下記参照。
6] Googleはbodyタグ(コンテンツ)内で日付を探します。次の形式を探します。YYYMMDDHH-YYYYMMDD-YYYYMM-YYYY-DDMMYYYY-YYMMMDD-MMDDYYYY-YYMMDD-DDMMYY-MMDDYY 下記参照。
注:Googleは、最初のH1
タグのすぐ下の日付を特に検索することが知られています。これは、ブログがこの場所に日付を入れることが多いためです。
7] Googleは、このようなメタタグを探します。 <meta http-equiv="last-modified" content="YYYY-MM-DD@hh:mm:ss TMZ" />
Googleは、次の日付形式も認識すると言われています。
YYYY-MD-YYYY.MD-YYYY / M / D-MD-YYYY-MDYYYY-M / D / YYYY-YY-MM-DD-YY.MM.DD-YY / MM / DD-WK、D MON、YR -WK、MON D、YR-D MON、YR-MON YYYY-MON D、YR-MON YY-YYYY-DM-YYYY.DM-YYYY / D / M-DM-YYYY-DMYYYY-D / M / YYYY- DD-MM-YY-MM-DD-YY-DD / MM / YY-MM / DD / YY-YYYYMMDDHH-YYYYMMDD-YYYYMM-YYYY-DDMMYYYY-MMDDYYYY-YYMMDD-DDMMYY-MMDDYY
私が見つけた研究は、時間の問題には答えませんでした。
引用された例の場合、ページは、無視される場合があるspanタグ内を除いて、日付の手がかりを提供しません。SEソフトウェア/ Webサーバーは、応答ヘッダー内で作成日と変更日を返すことができない可能性があります。
Googleがこれらの日付を導き出した理由と方法は、解決されないかもしれない良い質問です。しかし、私は探し続けます。