ホストされたブログを再帰的にミラーリングする


0

私はそれを行う方法を知っているので、標準のWebページまたはWebサイトツリーをダウンロードする方法を尋ねていません。

私が抱えている問題は、wget / downloadthemall / HTTrack / FDM / IDMなどがブログ形式で動作しないように見えることです。

理論的には、リンクを備えた標準のWebページですが、そうではありません。

-mと-r -l3の両方を使用してwgetを試しましたが、ダウンザモールもありません。

私が抱えている問題は、これらのダウンローダープログラムがタグシステムに従っていないようであるか、フォローするコンテンツの大部分が「古い投稿」タイプのリンクの背後にあることを認識していないことです。

スクリプトを使用せずに、これらのダウンローダープログラムのいずれかの使用をカスタマイズして、Webサイトの特定のパスをたどる方法はありますか?


どのブログ、具体的にはあなたが話しているのかを知ることは素晴らしいことです。
-digitxp

よくある質問に従って、サイトやサービスに固有の質問をすることはできませんが、例としてブロガーを使用できます。

回答:


0

ブログのリンクは別のドメインを指しているのですか、それとも別のドメインのように見えるものですか?たとえば、wgetに「someblog.com」からすべてを取得するように指示している場合でも、リンクは「www.someblog.com」を指します。


いいえ、リンクはすべて同じドメイン上にあるように見えますが、何らかの理由で画像タグを解析して画像を保存することはありません。CGIのものも、私は頻繁に要求されたものは何でも...何wgetのかに基づいて、多くの異なるファイル名で同じページを複数回取得すると、問題を引き起こしているようだ

画像ディレクトリはホットリンクから保護されている可能性があります。そのための1つの方法は、HTTPリファラーが正しくない場合にダウンロードを拒否することです。wgetのhttp-refererオプションを調査します。
ローレンス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.