検索エンジンはPDFをクロールしますか?


22

私が取り組んでいるWebサイトには、数百のPDFがあります。私は彼らが検索で戻ってくるのを見たことがないと思いますが、外部サイトから直接リンクされています。また、製品ドキュメントであるため、キーワードでいっぱいです。

Googleや他の検索エンジンでクロールするために必要な特別なことはありますか?

GoogleがPDFをより気に入ってくれるようにPDFを作成するための厳格なルールはありますか?例えば、Adobeが生成中に作成する壊れたPDFタグをクリーンアップするために、それらをghostscriptで実行する必要がありますか?


xmlサイトマップに追加して、それらが認識されていることを確認しますか?
-artlung

回答:


17

Googleは間違いなくPDFファイルのインデックスを作成filetype:pdfし、検索クエリに追加することでPDFファイルのみを検索できます()。

PDFを最適化して簡単に索引付けできるようにする主なことは次のとおりです。

  • 意味のあるファイル名を付けてください
  • すべてのドキュメントメタデータプロパティ(タイトル、作成者、キーワードなど)を完成させる
  • PDFがスキャンされた画像ではなく、実際のテキストで構成されていることを確認してください
  • HTMLドキュメントと同じように、見出しを正しく使用して適切なコンテンツを確保します

その他のヒントについてはPDFドキュメントの最適化および検索エンジン向けのPDFの最適化に関する11のヒントを参照してください。



@Christofianありがとう-リンクを更新しました。SEO企業が301リダイレクトなしでリンクの名前を変更したことの皮肉に感謝します。
ダンディプロ

PDFファイルのSEOに関して@DanDiplo該当する場合、コンテンツにリンクを追加することをお勧めします。
アナジオ

1

他の検索エンジンについてはわかりませんが、Googleに関する限り、主なルールはrobots.txtを介してそれらを除外しないことです。

これは、PDF検索をサポートする最初の発表でした。


1

ウェブサイトを準拠させることはSEOを傷つけないように、PDFをアクセス可能にすることは傷つけません。アドビのビルトインアクセシビリティチェッカーは完璧とはほど遠いですが、少なくともこれらの領域を修正することで始めることができます。

私は、おそらく4〜5枚ごとに5分を費やしますが、ほとんどはオンラインで作成したテキストPDFです。ページ数、およびそれらのページの複雑さに応じて、時間が均等に長くなります。

編集を行うAdobe Acrobat Proがあると仮定します。

  • アクセシビリティ完全チェックを実行します。(クイックチェックは私にはかなり無意味です)
  • ドキュメントプロパティ(キーワード、件名、言語など)のメタ情報を更新します。
  • タグが追加されていることを確認してください
  • テキストがテキストとして、画像が画像として、背景が背景としてタグ付けされていることを確認してください
  • 役に立たない綿毛(装飾やデザインなど)を背景としてタグ付けする
  • 画像に適切な代替テキストを追加する
  • 読み上げ順で、テキストが適切に並べられていることを確認してください
  • コンテンツツールバーで、テキストが重複していないか、著しく翻訳されていないことを確認します
  • スキャンしたページでOCRスキャナーを使用する

テーブルのようなより高度な編集や本当に奇妙なAdobeエラーのために、CommonLookと呼ばれるプラグインを使用します。CommonLookが仕事を成し遂げますが、私はAdobeツールを嫌うのと同じくらい嫌いです。

Touch Up Reading Orderツール、Tagsツールバー、Reading Orderツールバー、およびContentツールバーに慣れます。私の仕事は、ウェブに出かける前に完全に準拠したドキュメントを必要としますが、誰でもいくつかの簡単なタグ付けとドキュメントプロパティの恩恵を受けることができます。


私たちのサイトには5,000を超えるPDFがあり、それらを戻って508に完全に準拠する必要がありました。学ぶのに時間がかかったので、アドビはトレーナーは何の助けにもならないと提案しましたが、一度学べば、それらを本当に圧縮できます。
-MrChrister
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.