私はWebサイト*を蜘蛛にしてその内容をディスクにダウンロードするプログラムを探しています。私は私が試したプログラムを停止させるように見えるが、私は以下の要件を持っています。
- サイトのログオンプロセスは複数のページに分散されているので、Webブラウザでセッションを手動で開始し、認証してからスパイダーを起動してCookieにアクセスできるようにする必要があります。
- リンクの多くはJavascriptを実行してからコンテンツを返します。
- リンクの多くはPDF文書を返します(一部のスパイダーはこれをサポートしています)。
これまでのところ、私は#1と#2を処理することができるクモを見つけることができません。
*このサイトは請求書支払いサービスで、請求書の履歴があります。私はサービスの利用をやめたいと思っていますが、私はその歴史を守りたいのです。