訪問するすべてのWebページを(HTMLまたはMAFF / MHTMLとして)自動保存する-ソリューション [複製]


1

この質問にはすでに答えがあります:

私は長い間この問題を解決しようとしてきましたが、複数の可能性があります。これは複雑になります...

基本的に、自動化したいアクティビティは、すべてのページでブラウザがアクセスすることです-「右クリック、名前を付けて保存、xxx.html」アクションですので、閲覧履歴の記録が完全に保存されます。

  1. FirefoxのShelveアドオンはこれをバックグラウンドで正確に自動的に実行し、非常にうまく機能します(実際にはMAFFアーカイブhtml-as-a-a-single-fileを使用できますが、この形式はすべてを遅くするので、 HTMLに使用します)。

問題:他の5つのブラウザーを使用しているため、完全なレコードを作成するには不十分です。

  1. Cyotek WebCopyとWinHTTrackを調べました。どちらも本質的にはWebクローラーであり、URLを入力し、それをHTMLにストリップ/保存し始めます。WinHTTTrackは実際には問題なく動作しますが、長い時間がかかります(ブラウザでxxx.htmlを右クリックするだけで保存するよりもはるかに長くなります)。最悪の場合は自動化されません。

理論上、私がしなければならないことは、すべてのブラウザから閲覧履歴を取得し、アドオン付きのtxtファイルとしてエクスポートし(ブラウザの履歴は通常.sqliteファイルであるため)、それを受け入れるtxtファイルとしてプログラムにフィードすることです、そのURLのリストをクロールして、レベル0または1、または何でも(その特定のプログラムでクロールの深さを指定できます)。

これは、プロセスを実際に自動化できないことを意味するため、非常に面倒です。プログラムにURLを手動でフィードする必要があります。

  1. これの補遺として、訪問したすべてのページのブラウザーに依存しないURLリストを生成できるように、ルーターレベルでのURLロギング/ Webプロキシの設定を調査しました。理論的には、それをクローラーに供給し、おそらく自動化できますか?ただし、このURLログを生成する方法はまだわかりません。有望なプログラムがいくつかあります。Charles(ロギングを使用するWebプロキシ)、Fiddler(Webデバッグ/ロギングツール)などがあります。

  2. Proxy-offline-browserと呼ばれるプログラムは、Webプロキシを使用してすべてのURLを取得し、URLを自動的に保存することで正確に必要な処理を実行するため、有望に見えましたが、明らかにバグが多く、古く、ブラウザの速度が大幅に低下しました。開発者に連絡して、誤って使用していないかどうかを確認します。

また、一度に1つのブラウザでのみ実行されるようです。

  1. 私が望んでいることはそれほど難しいとは思わない。

  2. 私が望むのは、抽象的に完璧なものです:

ブラウザーがWebサイトにアクセスするたびに、URLがログに記録されます(Webの履歴で十分だと思いますが、Webの履歴がすべてのURLをキャプチャするとは限りません)。すべてのブラウザーからのログは、URLの巨大なリストに結合されます。

次に、すべてのURLがブラウザーによって自動的にアクセスされ、HTML(またはより適切な形式)として保存されます。そして、私はそれを1時間ごとに、またはコンピューターがアイドル状態になったときなどに、ある間隔で実行するようにします。

  1. あるいは、マクロを調べました。理論的には、訪問したすべてのページで右クリックして保存しただけで、必要なものを正確に再現できるからです。ただし、ブラウザ用のマクロは、実際には手動でマクロを実行する必要があるため、機能しないようです。

  2. 誰も私がこれを行う方法を知っていますか?!

回答:


0

5つのWebブラウザーを使用すると述べました。 閲覧履歴ビューは合計4つのブラウザーを実行し、訪問したすべてのサイトにかなり近いように見えますが、Safariを使用しているとは思えず、IEも同様に少なくなっています。ブラウザ自体からプルするため、「閲覧後」の保存になります。

それがいくつかのブラウザをつかみ、他の人のために何か他のものを見つけることができれば、それはより簡単になるかもしれません。

編集:技術的に閲覧履歴ビューは実際に9つの履歴を実際に取得します(2つの個別オプションとしてpre-IE10とIE10 / 11 + Edgeがあるため8)


-1

私はあなたと同じ船に乗っています。私が見つけた解決策の唯一のヒントは、WebページにアクセスしたときにローカルWebサーバーにPOSTするjs tweakです。さらに何かを見つけたり、より良い解決策を見つけた場合は、情報をいただければ幸いです:)私も探し続けます。


質問で説明されている問題と同じ問題があることを示す回答を残さないでください。十分な評判があれば、質問に賛成票を投じることができます。または、お気に入りとして「スター」を付けると、新しい回答があれば通知されます。
DavidPostill
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.