GoogleでPDFドキュメントのインデックスを作成するにはどうすればよいですか?


15

GoogleがサイトのPDFファイルのインデックスを作成するのに問題があります。PDFは約50個あり、サイズは20 KBから2メガバイト弱までの範囲です。それらは保護されておらず、匿名で読むことができ、PDF Reader内でドキュメントを検索できます。

それらはSiteMap.xmlにリストされています。IISログを見て、GooglebotがPDFファイルを読み取っているのを見ることができますが、5つを除いて、それらが検索結果に含まれることはありません。

filetye:pdfを実行すると、5つのPDFしか表示されませんでした。PDF内にあることがわかっているテキストを検索した場合、PDFは表示されません(インデックスに登録されている5つを除く)。

45+を超えるPDFドキュメントがサイトマップにあり、Googlebotがそれらを読んでいるにもかかわらず、なぜインデックスに含まれていないのか、誰にもわかりませんか?


Googleのコンテンツタイプを指定していますか?
クリスバランス

回答:


4

すべてのPDFは同じ場所にありますか?かつて、pdf-locationsの1つがrobots.txtによって除外されたフォルダー内にあったという問題がありました。サイトマップをgoogle-webmasterツールサイトに直接送信すると、PDFが表示されない理由に関する貴重な情報を入手できます。私の場合、グーグルは「ねえ、これらの54のPDFドキュメントはサイトマップ上にありますが、robots.txtの制限のためにインデックスを作成できません」と言った。とても役に立ちました。ただし、コメンテーターの発言に留意すると、この情報が表示されるまでしばらく時間がかかることがあります。

Googleウェブマスターツール:https : //www.google.com/webmasters/tools


Googleウェブマスターツールがリアルタイムですべての情報を提供するわけではないことを付け加えます。それでも、それは重要なリソースです。
リアム

いいえ、PDFはサイト内のいくつかの異なる場所にあります。私はチェックしましたが、robots.txtによってブロックされているものはありません。ウェブマスターツールを使用してサイトマップを送信してきましたが、引き続き送信します。フィードバックありがとうございます。ジム

1

Googleがコンテンツを最初に読み込んでからインデックスに表示されるまでにかなりの時間差があります。最近、サイトを再起動し、起動時にGoogleにサイトマップを送信しました。新しいページが検索結果に表示されるまでに約3週間かかりました。

サイトマップ経由でこれらのPDFを送信したのはいつですか?

(索引付けされている5つを除く)

PDFのインデックスが作成されているようですが、少し時間がかかります。インデックス化されていないPDFの生成方法に違いがないと仮定すると、インデックスの更新に時間がかかっているだけだと思います。

ちょっとした接線で、私がサインアップすることをお勧めする便利なツールの1つはGoogle Webmasterです。クロールレート、サイトの問題、サイトマップ、Googlebotがサイトにヒットする1日程度のインデックス作成を表示します。IISログを調べる時間を少し節約できます。


サイトマップを最初に送信してから約4週間が経過しました。昨夜、彼らがさらに4つのインデックスを作成したことに気付きました。だから多分私はただ待っておく必要があります:)

サイトを再起動したときに、検索結果に新しいページが表示されるまでに3週間かかった場合、それは3週間にわたって、検索がサイトに存在しなくなったページに結果を返したことを意味していませんか?これにより、多くの「ページが見つかりません」という状態になりませんでしたか?

私たちの状況では、新しいセクションの開始と同時に再起動が行われましたが、古いリンクは引き続き機能していました。新しいセクションが表示されるのは3週間でした。ランダムな待ち時間は少しイライラする可能性があります!
ConroyP

0

テキストが選択可能および検索可能になるようにPDFファイルがOCRスキャンされていますか?または、PDFファイルはOCRなしでスキャンされますか?その場合、テキストは大きな画像として保存されますか?PDFがすべて画像である場合、Googleは(まだ)インデックスを作成できるとは思わない。または、Googleは今までにあなたのページを見つけましたか?


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.