5
サイトマップを取得するためのWebサイトクローラー/スパイダー[非公開]
次のような形式で、Webサイトマップ全体を取得する必要があります。 http://example.org/ http://example.org/product/ http://example.org/service/ http://example.org/about/ http://example.org/product/viewproduct/ 次のように、リンクベースである必要があります(ファイルまたはディレクトリブルートフォースなし)。 ホームページを解析->すべてのリンクを取得->それらを探索->リンクを取得、... また、すべての「子ページ」を取得しないために、ページが「テンプレート」であるかどうかを検出する機能も必要です。たとえば、次のリンクが見つかった場合: http://example.org/product/viewproduct?id=1 http://example.org/product/viewproduct?id=2 http://example.org/product/viewproduct?id=3 http://example.org/product/viewproductを一度だけ取得する必要があります 私はHTTtracks、wget(スパイダーオプション付き)を調べましたが、これまでのところ決定的なものはありません。 ソフト/ツールはダウンロード可能である必要があり、Linux上で実行する場合は好みです。任意の言語で作成できます。 ありがとう