文字通り何千ものPDFを含むかなり大きなレガシーサイトがあります。これらのPDFは時々データベースで処理されますが、多くの場合、ページ上の単なるリンクであり、サイト上のほとんどすべてのディレクトリに格納されます。
自分のサイトのすべてのリンクをたどるphpクローラーを作成し、それをディレクトリ構造のダンプと比較していますが、もっと簡単なことはありますか?
文字通り何千ものPDFを含むかなり大きなレガシーサイトがあります。これらのPDFは時々データベースで処理されますが、多くの場合、ページ上の単なるリンクであり、サイト上のほとんどすべてのディレクトリに格納されます。
自分のサイトのすべてのリンクをたどるphpクローラーを作成し、それをディレクトリ構造のダンプと比較していますが、もっと簡単なことはありますか?
回答:
XenuのLink Sleuthを使用しました。うまく動作します。DOSを使用しないでください。
Windows 7を使用している場合、最適なツールはIIS7のSEO Toolkit 1.0です。無料で、無料でダウンロードできます。
このツールは、すべてのサイトをスキャンし、すべてのデッドリンクがどこにあるか、どのページがロードに時間がかかるか、タイトルが欠落しているページ、タイトルが重複していること、キーワードと説明が同じであること、HTMLが壊れているページを示します。
W3CのオープンソースツールLink Checkerをお試しください。オンラインで使用するか、ローカルにインストールできます
Unixのコマンドラインがあれば(私はLinux、MacOS、およびFreeBSDで使用しています)、大規模な静的サイトのリンクチェックのlinklintの大ファンです。インストール手順については、サイトを参照してください。インストールしたら、というファイルを作成して実行check.ll
します。
linklint @check.ll
check.llファイルは次のようになります
# linklint
-doc .
-delay 0
-http
-htmlonly
-limit 4000
-net
-host www.example.com
-timeout 10
それはクロールをwww.example.com
行い、壊れているもの、欠落しているものなどの相互参照レポートを含むHTMLファイルを生成します。
Microsysのいくつかの製品、特にA1 Sitemap GeneratorおよびA1 Website Analyzerは、Webサイトをクロールし、想像できるすべてをレポートします。
これには、壊れたリンクだけでなく、すべてのページのテーブルビューも含まれるため、同一の<title>タグとメタ説明タグ、nofollowリンク、Webページのメタnoindex、鋭い目だけが必要な多くの病気などを比較できます。簡単に修正できます。
Link Examinerは、あなたのニーズにぴったりのフリーウェアです。