コンピュータユーザー sitemap

サイトマップを取得するためのWebサイトクローラー/スパイダー[非公開]

次のような形式で、Webサイトマップ全体を取得する必要があります。 http://example.org/ http://example.org/product/ http://example.org/service/ http://example.org/about/ http://example.org/product/viewproduct/ 次のように、リンクベースである必要があります（ファイルまたはディレクトリブルートフォースなし）。ホームページを解析->すべてのリンクを取得->それらを探索->リンクを取得、... また、すべての「子ページ」を取得しないために、ページが「テンプレート」であるかどうかを検出する機能も必要です。たとえば、次のリンクが見つかった場合： http://example.org/product/viewproduct?id=1 http://example.org/product/viewproduct?id=2 http://example.org/product/viewproduct?id=3 http://example.org/product/viewproductを一度だけ取得する必要があります私はHTTtracks、wget（スパイダーオプション付き）を調べましたが、これまでのところ決定的なものはありません。ソフト/ツールはダウンロード可能である必要があり、Linux上で実行する場合は好みです。任意の言語で作成できます。ありがとう

website wget web-crawler sitemap

タグ付けされた質問 「sitemap」

タグ付けされた質問「sitemap」